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随 着 大 数据 的 迅猛 发 展 和 日 益 普 及 , 越 来 越 多 的 与 数据 分 析 有 关 的 人 员 ,如 企业 管理 
人 员 ,企业 数据 分 析 人 员 、 业 务 分 析 人 员 ,市 场 营销 人 员 ,政府 监管 机 构 如 证 监 会 、 银 监 局 、 
保监会 的 监管 人 员 ,审计 师 注册 会 计 师 ,纪检 监察 和 司法 机 关 执 纪 执 法 人 员 等 需要 掌握 
大 数据 应 用 分 析 技 术 与 方法 ,迫切 需要 从 大 数据 中 挖掘 有 用 的 信息 ,提升 工作 水 平和 工作 
效率 。 这 是 信息 化 发 展 提出 的 必然 要 求 , 尤 其 是 在 业务 与 信息 技术 密切 融合 的 形势 下 ,这 
种 需求 越 来 越 强 劲 。 适 应 这 种 需求 ,我们 在 编著 这 本 书 时 ,着 力 突出 实用 性 、 可 操作 性 和 
指导 性 。 

实用 性 。 贴 近 大 数据 发 展 的 现状 和 趋势 ,全 书 共 安 排 了 10 章 内 容 , 强 调 了 大 数据 的 
宝贵 价值 ,介绍 了 常用 的 数据 分 析 技 术 与 方法 , 紧 扣 大 数据 的 特点 演示 了 可 视 化 分 析 与 可 
视 化 挖掘 的 方法 ,详细 讨论 了 数据 清洗 与 元 数据 管理 ,对 大 数据 的 风险 予以 充分 揭示 , 同 
时 提出 了 大 数据 风险 管理 的 对 策 , 对 大 数据 治理 作 了 简介 。 

可 操作 性 。 在 介绍 大 数据 应 用 分 析 技 术 和 方法 时 ,由 浅 入 深 ,逐步 引导 ,屏蔽 技术 细 
节 , 让 读者 直接 进入 业务 应 用 的 层面 ,熟练 掌握 操作 。 尤 其 是 全 书 从 大 数据 分 析 的 应 用 实 
践 中 精 选 了 大 量 案例 ,进行 了 生动 讲解 。 这 些 案例 是 大 数据 分 析 实 践 中 的 可 贵 探索 和 经 
验 总 结 。 通 过 案例 的 操作 可 以 更 好 地 引导 读者 加 深 对 理论 部 分 的 理解 ,掌握 分 析 技 术 与 
方法 。 

指导 性 。 本 书 创新 性 地 把 大 数据 应 用 分 析 划 分 为 器 、 技 `. 道 和 美 四 个 层面 。 器 , 指 
大 数据 分 析 的 硬件 和 软件 ; 技 , 指 大 数据 分 析 的 技术 和 方法 ; 道 , 指 大 数据 分 析 的 思维 
方式 ; 美 , 指 审美 体验 、 感 觉 和 想象 力 。 在 开展 大 数据 分 析 时 需要 硬件 和 软件 、 需 要 技 
术 方 法 ,这 是 毋庸 讳言 的 。 但 大 数据 数量 巨大 .类 型 繁多 ,来 源 复杂 ,而 且 很 多 过 去 从 
来 没有 遇 到 过 , 单 靠 工 具 和 技术 方法 是 不 能 胜任 大 数据 分 析 的 多 变 情 况 的 ,清晰 的 分 
析 思 路 、 科 学 的 思维 方式 显得 更 为 重要 ,具有 更 强 的 更 普遍 的 指导 性 。 本 书 详细 介绍 
了 特征 发 现 的 思维 方式 ,通过 案例 介绍 了 特征 枚 举 、 特 征 捕 提 、 特 征 分 析 的 实际 应 用 ， 
同时 对 大 数据 分 析 中 如 何 结合 审美 体验 , 张 开 想 象 的 翅膀 ,激发 分 析 的 灵感 ,打开 分 析 
的 思路 给 予 了 必要 强调 。 

为 天 天 和 大 数据 打交道 的 人 尽快 掌握 大 数据 分 析 的 实用 技能 助 一 臂 之 力 ,为 天 天 使 
用 大 数据 的 人 通过 最 简单 的 路 径 掌 握 大 数据 分 析 的 技能 提供 支持 和 帮助 ,这 是 我 们 的 初 
庄 。 为 了 这 个 初衷 我 们 确实 努力 了 。 大 数据 在 发 展 中 ,加 之 编著 者 的 水 平和 经 验 有 限 , 书 
中 有 些 问题 的 研究 还 不 透彻 ,有 些 内 容 还 有 待 于 在 实践 中 检验 和 完善 ,还 有 些 可 能 本 身 就 
是 存在 问题 的 ,这 也 是 在 所 难免 的 。 真 诚 希望 广大 读者 批评 指正 ! 
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第 1 章 大 数据 是 信息 社会 的 宝贵 资源 


1.1 大 数据 产生 的 背景 和 概念 


大 数据 是 随 着 信息 数据 快速 增长 和 网 络 计算 技术 迅猛 发 展 而 兴起 的 一 个 新 概念 。 大 
数据 通过 对 海量 数据 的 收集 .处 理 和 展示 ,揭示 规律 ,预测 未 来 。 大 数据 能 够 帮助 企业 从 
海量 数据 中 挖掘 用 户 的 需求 ,从 而 使 数据 真正 产生 价值 。 随 着 大 数据 的 发 展 , 其 应 用 已 经 
渗透 到 农业 .工业 商业、 服务 业 和 医疗 领域 等 各 个 方面 。 

随 着 计算 机 信息 技术 的 发 展 和 网 络 的 普及 ,以 博客 、 社 交 网 络 、 基 于 位 置 的 服务 为 代 
表 的 新 型 信息 发 布 方式 的 不 断 涌现 ,以 及 云 计算 、 物 联网 .移动 互联 网 等 技术 的 兴起 和 普 
及 ,数据 正 以 前 所 未 有 的 速度 在 不 断 地 增长 和 累积 ,特别 是 进入 DT( 数 据 技术 ) 时 代 , 在 
线 数据 存储 和 计算 量 以 及 人 类 在 日 常 学 习 、 生 活 、 工 作 中 产生 的 数据 量 正 以 指数 形式 增 
长 ,呈现 “爆炸 ”状态 。 国 际 数 据 公 司 (IDC) 的 研究 结果 表明 ,2008 年 全 球 产生 的 数据 量 为 
0. 49ZB(1024GB=1TB,1024TB=1PB,1024PB=1EB,1024EB 王 1ZB) ,2009 年 的 数据 量 
为 0.8ZB,2010 年 增长 为 1.2ZB,2011 年 的 数量 更 是 高 达 1. 82ZB, 相 当 于 全 球 每 人 每 年 
产生 200GB 以 上 的 数据 。 而 到 2012 年 为 止 ,人 类 生产 的 所 有 印刷 材料 的 数据 量 是 
200PB。2014 年 ,全 球 产生 的 数据 量 估计 已 经 达到 了 3.6ZB。 

全 球 信息 数据 量 的 飞速 膨胀 成 为 大 数据 产业 存在 并 发 展 的 基础 。 国 际 数据 公司 
(IDC) 预计 ,未 来 全 球 数 据 总 量 增 长 率 将 维持 在 50%% 左 右 , 到 2020 年 全 球 数据 总 量 将 达 
到 40ZB, 其 中 ,我 国 将 达到 8. 6ZB, 占 全 球 的 21%。 中 国信 息 产 业 研 究 院 的 数据 显示 ， 
2014 年 我 国 大 数据 市 场 规模 约 为 116 亿 元 ,同比 增长 38%。 预 计 未 来 几 年 , 随 着 应 用 效 
果 的 逐步 显现 ,我 国 大 数据 市 场 规模 还 将 维持 40% 左 右 的 高 速 增长 。 

除了 迅速 增长 的 数据 洪流 ,数据 的 结构 越 来 越 趋 于 复杂 化 ,除了 传统 数据 库 中 的 数 
据 , 还 有 文档 、 网 页 .图 像 、 音 频 和 视频 等 ,而 且 后 者 所 占 的 比例 也 越 来 越 大 。 这 些 数 据 的 
量变 到 底 有 多 大 呢 ? 2014 年 产生 了 大 约 5ZB(Zettabyte) 字 节 的 非 结 构 化 数据 ,到 2020 
年 预计 将 增加 到 大 约 40ZB 字 节 的 非 结构 化 数据 。 如 图 1-1 所 示 为 非 结 构 化 数据 2005 一 
2020 年 的 实际 和 预期 增长 对 比 ,该 图 片 引 自 Evangelos Simoudis 的 “ 认 知 应 用 : 大 数据 的 
下 个 转折 点 "一文 。 

这 些 数 量 巨大 、 种 类 繁多 .结构 复杂 的 数据 早已 远 远 超 越 了 传统 技术 所 能 处 理 的 范 
畴 ,如 何 合理 、 高 效 、 充 分 地 管理 和 使 用 这 些 数 据 , 使 之 能 够 给 人 们 的 生活 和 工作 带 来 更 大 
的 效益 和 价值 ,逐渐 成 为 人 们 的 共识 ,在 这 种 背景 下 ,大 数据 应 运 而 生 。 

什么 是 大 数据 呢 ? 大 数据 一 词 源 于 英文 的 “Big Data”, 以 前 也 有 类 似 的 词语 ,如 * 海 
量 数据 “信息 爆炸 ”等 ,但 似乎 都 很 难 准确 描述 这 个 词 的 具体 内 涵 。 目 前 国内 外 对 大 数据 
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图 1-1 非 结 构 化 数据 2005 一 2020 年 的 实际 和 预期 增长 对 比 


没有 一 个 统一 的 定义 ,国内 外 政府 机 构 、 企 业 和 专家 从 不 同 角度 给 出 了 大 数据 的 定义 。 维 
基 百 科 对 大 数据 的 定义 是 “大 数据 是 数据 规模 巨大 ,通过 目前 主流 软件 工具 无 法 在 合理 时 
间 内 捕获 ,管理 ,处 理 并 整理 成 为 帮助 经 营 决策 的 数据 集 ”; 美 国 国家 标准 和 技术 研究 院 
CNIST) 则 认为 “大 数据 是 指 由 于 数据 的 容量 .数据 的 获取 速度 或 者 数据 的 表示 限制 了 使 
用 传统 关系 方法 对 数据 的 分 析 处 理 能 力 , 需 要 使 用 扩展 的 机 制 以 提高 数据 处 理 效率 的 技 
术 ”; 著 名 的 管理 咨询 公司 麦肯锡 公司 的 研究 报告 中 将 大 数据 定义 为 “超过 了 传统 数据 库 
软件 工具 捕获 、 存 储 、 管 理 和 分 析 能 力 的 数据 集 ”; 国 际 数据 公司 (IDC) 是 研究 大 数据 及 其 
影响 的 先驱 , 在 其 2011 年 的 报告 中 指出 “大 数据 技术 描述 了 一 个 技术 和 体系 的 新 时 代 ， 
被 设计 用 于 从 大 规模 、 多 样 化 的 数据 中 通过 高 速 捕获 、 发 现 和 分 析 技 术 提 取 数 据 的 价值 ”。 
著名 的 大 数据 专家 维克托 。 迈 尔 一 舍 恩 伯 格 在 其 经 典 著作 《大 数据 时 代 》 中 ,指出 大 数据 
“是 当今 社会 所 独 有 的 一 种 新 型 能 力 ,以 一 种 前 所 未 有 的 方式 ,通过 对 海量 数据 进行 分 析 ， 
获得 有 巨大 价值 的 产品 和 服务 ,或 深刻 的 洞 见 。” 

大 数据 中 的 海量 数据 有 三 个 主要 来 源 , 首 先是 海量 交易 数据 。 随 着 信息 技术 的 广泛 
应 用 , 越 来 越 多 的 企业 和 机 构 比 以 往 任何 时 候 都 依赖 信息 系统 ,如 超市 的 销售 记录 系统 、 
火车 售票 系统 .银行 的 交易 记录 系统 .医院 病人 的 医疗 记录 等 ,由 此 产生 了 大 量 的 交易 数 
据 。 其 次 是 海量 的 网 络 信息 。 互 联网 的 诞生 促使 人 类 社会 数据 量 出 现 一 次 巨大 的 飞跃 ， 
但 是 真正 的 数据 爆发 产生 于 移动 互联 网 时 代 特 别 是 社交 媒体 的 兴起 ,这 类 数据 近 几 年 一 
直 呈 现 爆炸 性 的 增长 ,涵盖 了 海量 的 聊天 记录 、Web 网 页 .电子 邮件 .图片 视频、 音频 等 。 
最 后 是 海量 的 感知 数据 。 物 联网 (The Internet of Things) 是 新 一 代 信息 技术 的 重要 组 成 
部 分 ,通过 传感器 和 网 络 技术 实现 了 物 与 物 、 人 与 物 、 人 与 人 之 间 的 互联 。 物 联网 时 代 , 除 
了 智能 手机 ,平板 电脑 等 常见 的 客户 终端 之 外 ,更 多 更 先进 的 传 感 设备 和 智能 设备 ,如 吞 
能 手表 、 智 能 眼镜 、 智 能 汽车 、 智 能 电视 、 工 业 设 备 和 手持 设备 等 都 将 接 入 网 络 , 由 此 产生 
的 海量 感知 数据 量 及 其 增长 速度 比 以 往 任何 时 期 都 要 多 。 

近 几 年 ,大 数据 迅速 成 为 科技 界 和 企业 界 甚至 世界 各 国政 府 关 注 的 热点 ,发 展 的 势头 
. 2 . 
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不 可 阻挡 。 著 名 的 科技 旗舰 杂志 《自然 和 《科学 ?等 相继 出 版 专刊 ,分别 从 互联 网 技术 、. 互 
联网 经 济 学 .超级 计算 、 环 境 科学 .生物 医药 等 多 个 方面 专门 探讨 大 数据 带 来 的 机 遇 和 挑 
战 。2011 年 5 月 麦肯锡 公司 在 美国 拉 斯 维 加 斯 举办 的 第 11 届 EMC World 年 度 大 会 上 
称 :“ 数 据 已 经 渗透 到 当今 每 一 个 行业 和 业务 职能 领域 ,成 为 重要 的 生产 因素 。 人 们 对 于 
大 数据 的 挖掘 和 运用 ,预示 着 新 一 波 生 产 力 增长 和 消费 盈余 浪潮 的 到 来 .美国 政府 认为 
大 数据 是 “未 来 的 新 石油 ”, 并 于 2012 年 3 月 29 日 发 布 了 “大 数据 研究 发 展 倡议 ”, 正 式 启 
动 “ 大 数据 发 展 计 划 ”。 

我 国 十 分 重视 大 数据 的 发 展 。2012 年 8 月 ,中 国 科学 院 启 动 了 “面向 感知 中 国 的 新 
一 代 信 息 技 术 研 究 ” 战 略 性 先导 科技 专项 ,2013 年 ,科技 部 正式 启动 863 项 目 “ 面 向 大 数 
据 的 先进 存储 结构 及 关键 技术 ”, 这 些 科研 项 目的 任务 之 一 就 是 研制 用 于 大 数据 采集 、 存 
储 、 处 理 . 分 析 和 挖掘 的 未 来 数据 系统 。 国 务 院 于 2014 年 8 月 发 布 了 《国务 院 关 于 加 快 发 
展 大 数据 .呼叫 中 心 等 生产 性 服务 业 的 指导 意见 》, 从 国家 层面 推动 大 数据 的 建设 和 发 展 ; 
2015 年 7 月 ,国务 院 办 公 厅 印发 了 《关于 运用 大 数据 加 强 对 市 场 主 体 服 务 和 监管 的 若干 
意见 》, 要 求 在 政府 层面 推动 大 数据 的 应 用 ; 2015 年 9 月 国务 院 颁布 了 《国务 院 关 于 印发 
促进 大 数据 发 展 行动 纲要 》, 提 出 "全 面 推进 我 国 大 数据 发 展 和 应 用 ,加 快 建设 数据 强国 ” 
的 方针 政策 ,这 标志 着 大 数据 建设 和 应 用 已 经 上 升 为 国家 发 展 的 长 期 战略 。 


1.2 大 数据 的 特征 


目前 大 数据 尚未 具有 统一 的 描述 ,不同 的 定义 基本 上 都 是 从 大 数据 的 特征 出 发 , 通 
过 大 数据 特征 的 阐述 和 归纳 试图 给 出 其 定义 。 大 家 都 普遍 认同 大 数据 具有 4 个 基本 特 
征 ,分 别 是 容量 大 (Volume) ,种 类 多 (Variety) .高 速度 (Velocity) 和 价值 密度 低 (Value) ， 
由 于 这 四 个 特征 的 英文 单词 都 是 以 英文 字母 “V” 开 头 , 所 以 又 将 其 称 为 大 数据 的 “4V 
特征 ”。 

容量 大 是 指 大 数据 的 数据 量 非常 巨大 。 例 如 ,互联 网 搜索 的 巨头 谷歌 现在 能 够 处 理 
的 网 页 数量 是 在 千 亿 以 上 ,每 月 处 理 的 数据 量 超过 400PB(400X105B) ,并 且 呈 继续 高 速 
增长 的 趋势 ;百度 目前 数据 总 量 接近 1 000PB(1 000X105B) ,存储 网 页 数量 接近 1 万 亿 ， 
每 天 大 约 要 处 理 60 亿 次 搜索 请 求 。 

种 类 多 是 指 大 数据 的 数据 种 类 繁多 ,结构 复杂 。 在 大 数据 时 代 , 数 据 来 源 并 非 仅 仅 是 
计算 机 产生 的 信息 或 者 人 们 在 互联 网 上 发 布 的 信息 ,全 世界 的 工业 设备 .汽车 .电表 上 有 
着 无 数 的 数码 传感器 ,随时 测量 和 传递 有 关 人 位置. 运动、 振动 .温度 .湿度 乃至 空气 中 化 学 
物质 的 变化 等 ,也 产生 了 海量 的 数据 信息 。 这 些 数 据 既 包含 传统 关系 数据 库 中 保存 的 结 
构 化 数据 ,也 包含 图 像 、 声 音 和 视频 等 非 结 构 化 数据 以 及 HTML 网 页 和 XML 文档 等 半 
结构 化 数据 ,而 且 非 结构 化 数据 和 半 结 构 化 数据 所 占 的 比例 呈现 越 来 越 大 的 趋势 。 

高 速度 是 指 大 数据 能 够 更 快 地 满足 实时 性 的 需求 。 目 前 ,对 于 数据 智能 化 和 实时 性 
的 要 求 越 来 越 高 ,比如 开车 时 会 随时 通过 智能 导航 仪 查询 最 佳 路 线 ,在 餐厅 吃饭 时 会 查询 
其 他 用 户 对 餐厅 的 评价 和 推荐 的 菜肴 , 见 到 有 趣 的 事情 或 可 口 的 食物 会 拍照 发 微 博 等 诸 
如 此 类 的 人 与 人 、 人 与 机 器 之 间 的 信息 交流 互动 ,这 些 都 不 可 避免 地 带 来 数据 交换 ,而 
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据 交换 的 关键 是 降低 延迟 ,以 近乎 实时 的 方式 完成 数据 交换 的 任务 。 

价值 密度 低 是 大 数据 特征 里 最 关键 的 一 点 。 数 据 量 大 并 不 意味 着 数据 价值 的 增加 ， 
大 数据 时 代数 据 的 价值 就 像 沙里 淘金 ,其 应 用 价值 (金子 ) 是 隐藏 在 沙子 之 中 的 ,数据 量 越 
大 ,里 面 真 正 有 价值 的 东西 所 占 的 比例 就 会 越 少 。 大 数据 面临 的 一 个 挑战 就 是 从 这 些 
TB、PB、EB 级 的 海量 数据 中 ,提取 有 价值 的 信息 ,将 信息 转化 为 知识 ,发 现 规律 ,最 终 用 
知识 促成 正确 的 决策 和 行动 。 

另外 , 随 着 人 们 对 大 数据 的 研究 不 断 深 入 ,有 的 企业 (如 IBM 公司 ) 认 为 大 数据 还 应 
具有 第 五 个 特征 , 即 真 实 性 (Veracity) ,通俗 地 讲 , 它 是 指 大 数据 中 数据 来 源 广泛 、 种 类 繁 
多 ,这 些 数据 具有 不 可 靠 或 不 精确 的 可 能 性 。 当 我 们 试图 获得 大 规模 的 数据 时 ,必须 能 
控制 这 些 不 可 靠 或 不 精确 带 来 的 影响 ,使 这 些 海量 数据 能 够 被 用 来 更 好 地 解释 和 预测 客 
观 世 界 。 


1.3 大 数据 与 传统 数据 的 区 别 


从 传统 的 数据 库 到 大 数据 ,不 仅仅 只 是 一 个 简单 的 技术 演进 ,两 者 既 有 密切 联系 又 有 
着 本 质 上 的 差别 。 

大 数据 的 出 现 颠 覆 了 传统 的 数据 管理 方式 ,在 数据 来 源 、 数 据 处 理 方式 和 数据 思维 等 
方面 带 来 革命 性 的 变化 。 为 了 说 明 传 统 的 数据 库 和 大 数据 的 区 别 , 有 的 专家 使 用 "池塘 捕 
鱼 " 和 "大 海 捕 鱼 ”的 形象 比喻 。“ 鱼 ?是 待 处 理 的 数据 ,池塘 捕 鱼 ”代表 传统 数据 库 时 代 的 
数据 管理 方式 ,而 “大 海 捕 鱼 ” 则 对 应 着 大 数据 时 代 的 数据 管理 方式 。“ 捕 鱼 ” 环 境 条 件 的 
变化 导致 了 “ 捕 鱼 ”方式 的 根本 性 差异 ,这 些 差 异 主要 体现 在 如 下 几 个 方面 。 

(1) 数据 规模 :“ 池 塘 ” 和 “大 海 ”" 最 明显 的 区 别 就 是 规模 不 一 样 。“ 池 塘 ” 规 模 相 对 较 
小 , “池塘 ”的 处 理 对 象 通常 以 MB 为 基本 单位 ,而 "大海 ”的 规模 非常 大 , 则 常常 以 GB, 其 
至 是 TB、PB、EB 为 基本 处 理 单位 。 

(2) 数据 类 型 : “池塘 ? 中 的 数据 种 类 往往 仅仅 有 几 种 ,这 些 数据 又 以 结构 化 数据 为 
主 。 而 在 “大 海 ” 中 数据 的 种 类 繁多 ,这 些 数据 不 仅 包含 结构 化 数据 ,还 包含 半 结 构 化 数据 
以 及 非 结构 化 的 数据 ,并 且 半 结构 化 数据 和 非 结构 化 数据 所 占 份额 越 来 越 大 。 

(3) 模式 和 数据 的 关系 : 传统 的 关系 数据 库 都 是 先 有 模式 ,然后 才 会 产生 数据 。 这 
就 好 比 是 先 选 好 合适 的 “池塘 ,然后 才 会 向 其 中 投放 适合 在 该 “池塘 ?环境 生长 的 “ 鱼 ”。 
而 大 数据 时 代 很 多 情况 下 难以 预先 确定 模式 ,模式 只 有 在 数据 出 现 之 后 才能 确定 , 且 模 式 
随 着 数据 量 的 增长 处 于 不 断 的 演变 之 中 。 这 就 好 比 “ 大 海 ” 中 鱼 的 种 类 和 数量 都 在 不 断 地 
增长 , 鱼 的 变化 会 使 大 海 的 成 分 和 环境 处 于 不 断 变 化 之 中 。 

(4) 处 理 对 象 : 在 “池塘 ”中 捕 鱼 ,“ 鱼 ”仅仅 是 其 捕捞 对 象 。 而 在 大海” 中 ,“ 鱼 ”除了 
是 捕捞 对 象 之 外 ,还 可 以 通过 某 些 “ 鱼 ”的 存在 来 判断 其 他 种 类 的 “ 鱼 ” 是 否 存 在 。 也 就 是 
说 ,传统 数据 库 中 数据 仅 作 为 处 理 对 象 , 而 在 大 数据 时 代 , 要 将 数据 作为 一 种 资源 来 辅助 
解决 其 他 诸多 领域 的 问题 。 

(5) 处 理 方法 : 如 果 把 * 渔 网? 比 作 数据 处 理 方法 的 话 ,捕捞 “池塘 ?中 的 “ 鱼 ”, 只 需 少 
数 几 种 基本 的 “渔网 ?就 可 以 应 对 ,但 是 在 “大 海中 ,不 可 能 存在 少数 渔网 能 够 捕获 所 有 的 
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鱼 类 。 传 统 意义 上 的 数据 处 理 方式 包括 数据 挖掘 、 数 据 仓库 、 联 机 分 析 处 理 (OLAP) 等 ， 
而 在 大 数据 时 代 , 数 据 已 经 不 仅仅 是 需要 分 析 处 理 的 内 容 , 更 重要 的 是 人 们 需要 借助 专用 
的 思想 和 手段 从 大 量 看 似 杂 乱 、 繁 复 的 数据 中 ,收集 、 整 理 和 分 析 数 据 ,为 人 们 在 生产 和 生 
活 中 预测 .决策 和 规划 提供 强 有 力 的 支持 。 

图 灵 奖 获得 者 .著名 数据 库 专 家 吉姆 。 格 雷 (Jim Gray) 博 士 观察 并 总 结 在 人 类 的 科 
学 研究 史上 ,先后 经 历 了 实验 .理论 和 计算 三 种 研究 方法 。 而 在 数据 量 不 断 增加 和 数据 结 
构 愈 加 复杂 的 今天 ,这 三 种 方法 在 一 些 新 的 研究 领域 已 经 无 法 很 好 地 发 挥 作用 ,所 以 吉 
姆 ， 格 雷 博 士 提出 了 科学 研究 的 第 四 种 方法 , 即 “ 数 据 探 索 ”, 通 过 大 数据 的 分 析 和 处 理 来 
指导 科学 研究 。 

(6) 存储 方式 :“ 池 塘 ” 大 都 采用 关系 型 数据 库 保存 数据 ,而 “大 海 ”* 的 数据 量 巨大 , 关 
系 型 数据 库 已 经 不 能 容纳 如 此 巨大 的 数据 ,目前 只 能 采用 非 关 系 型 数据 库 ( 如 NoSQL) 或 
分 布 式 文件 系统 (HDFS) 来 存储 数据 。 

虽然 大 数据 和 传统 数据 库 有 本 质 的 差异 ,但 是 二 者 又 有 密切 的 联系 。 首 先 ,大 数据 不 
是 否定 传统 的 数据 库 , 有 些 学 者 认为 传统 数据 库 是 大 数据 的 一 个 重要 组 成 部 分 ,大 数据 只 
是 传统 数据 库 处 理 能 力 的 拓展 和 延伸 ;其 次 ,有 些 著名 的 IT 企业 提出 传统 数据 库 和 大 数 
据 是 互补 的 关系 ,大 数据 中 的 结构 化 数据 通过 传统 数据 库 能 够 获得 更 好 的 存储 和 处 理 ; 最 
后 ,虽然 传统 的 数据 库 在 处 理 当 今 海量 复杂 的 数据 方面 遇 到 了 严峻 的 挑战 ,但 是 它 依 然 是 
今天 主流 的 数据 存储 技术 ,大 数据 要 代替 传统 数据 库 成 为 主流 的 存储 技术 尚 需 时 日 。 


1.4 大 数据 的 价值 和 开发 应 用 


近 几 年 ,大 数据 迅速 发 展 成 为 政府 ` 企 业界 和 学 术 界 关注 的 热点 。 人 们 意识 到 ,一 个 
国家 和 企业 拥有 数据 的 规模 和 运用 数据 的 能 力 将 成 为 综合 国力 和 企业 竞争 力 的 重要 组 成 
部 分 ,对 数据 的 占有 和 控制 将 成 为 国家 间 和 企业 间 新 的 争夺 焦点 。 世 界 500 强 的 大 公司 
认为 大 数据 是 “重要 的 生产 因素 ”, 而 美国 政府 甚至 把 大 数据 称 为 “未 来 的 新 石油 ”。 

毋庸 置疑 ,大 数据 是 待 挖掘 的 金 矿 , 其 价值 不 言 而 喻 。 大 数据 的 核心 价值 是 什么 呢 ? 
目前 人 们 比较 认同 的 有 三 个 方面 的 价值 。 

首先 ,大 数据 改变 了 我 们 分 析 和 使 用 数据 的 思维 方式 。《 大 数据 时 代 ) 一 书 作 者 维 克 
托 。 迈 尔 一 舍 恩 伯 格 认为 大 数据 时 代 处 理 和 分 析 数 据 的 思维 有 三 大 转变 : 第 一 个 转变 是 
在 大 数据 时 代 可 以 分 析 更 多 的 数据 ,甚至 是 相关 的 所 有 数据 ,而 不 再 依赖 少量 的 采样 数 
据 。 在 传统 数据 分 析 中 ,我 们 所 做 的 是 试图 通过 最 少量 的 样本 数据 观测 来 发 现 规律 。 由 
于 数据 的 采集 、 存 储 和 分 析 的 成 本 高 ,因此 我 们 只 能 采用 采样 的 方法 。 而 在 大 数据 时 代 ， 
我 们 收集 所 有 的 数据 ,是 与 我 们 所 研究 的 现象 相关 的 所 有 可 获得 的 数据 ,因此 我 们 能 够 基 
于 与 某 事 物 相 关 的 所 有 数据 展开 数据 分 析 , 而 不 是 仅仅 依靠 分 析 少 量 的 数据 样本 。 第 二 
个 转变 是 不 再 追求 精确 度 。 大 数据 时 代数 据 是 如 此 之 多 ,以 至 于 我 们 不 再 热衷 于 追求 精 
确 度 。 适 当 忽 略 数据 的 精确 度 ,可 以 获得 更 广泛 的 数据 ,将 带 来 更 好 的 洞察 力 和 更 大 的 商 
业 利益 。 第 三 个 转变 是 不 再 热衷 于 寻找 事物 之 间 的 因果 关系 ,而 是 关注 事物 之 间 的 相关 
关系 。 例 如 ,成 千 上 万 的 电子 商务 网 站 可 以 根据 所 记录 的 用 户 行为 习惯 ,分 析出 用 户 喜 
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的 产品 或 服务 ,然后 对 用 户 进 行 推荐 ,但 是 这 些 网 站 并 不 关心 用 户 为 什么 会 对 这 些 产品 和 
服务 感 兴 趣 。 

其 次 ,大 数据 提高 了 决策 支持 的 能 力 。 基 于 大 数据 的 决策 有 两 个 主要 特点 : 第 一 ,不 
同 于 传统 的 基于 少量 数据 样本 的 数据 分 析 方 法 。 大 数据 中 的 海量 数据 全 面 履 盖 了 企业 经 
营 以 及 政治 经 济 、 社 会 .教育 等 方面 的 信息 ,通过 对 这 些 完整 的 信息 进行 分 析 , 能 够 提高 
决策 的 质量 ;第 二 ,决策 的 技术 水 平和 效率 大 幅 提 高 。 云 计算 技术 是 大 数据 的 重要 支撑 技 
术 , 通 过 云 计算 强大 的 计算 能 力 和 数据 挖掘 技术 ,人 类 不 会 被 海量 数据 所 淹没 ,能 够 高 效 
率 驾 驭 海量 数据 ,获得 有 价值 的 决策 信息 。 例 如 ,在 企业 经 营 管理 中 ,大 数据 能 够 帮助 企 
业 分 析 大 量 数据 而 进一步 挖掘 细 分 市 场 的 机 会 ,最 终 能 够 缩短 企业 产品 研发 时 间 ,提升 企 
业 在 商业 模式 .产品 和 服务 上 的 创新 力 ; 学 校 和 老师 能 够 在 对 教学 案例 进行 大 数据 分 析 的 
基础 上 改进 他 们 的 教学 方法 并 合理 安排 教学 内 容 ;交管 部 门 通 过 整合 交通 状况 、 天 气 以 及 
驾驶 员 的 地 点 信息 等 数据 ,可 以 更 好 地 管理 交通 ;大 数据 在 政府 和 公共 服务 领域 的 应 用 ， 
可 以 有 效 推动 政府 工作 开展 ,提高 政府 部 门 的 决策 水 平 、 服 务 效 率 和 社会 管理 水 平 。 

最 后 ,通过 大 数据 进行 预测 .《 大 数据 时 代 》 一 书 作者 维克托 。 迈 尔 一 舍 恩 伯 格 认为 
预测 是 大 数据 的 核心 ,通过 对 大 数据 的 分 析 来 预测 事情 发 生 的 可 能 性 和 发 展 的 方向 。 例 
如 ,美国 加 州 警方 应 用 大 数据 进行 预测 分 析 ,发 现 了 犯罪 趋势 和 犯罪 模式 ,甚至 可 以 对 重 
点 区 域 的 犯罪 概率 进行 预测 ;又 如 ,前 面 提 到 的 图 灵 奖 获得 者 、 著 名 数据 库 专 家 吉姆 ， 格 
雷 博士 提出 了 第 四 种 科学 研究 的 方法 一 一 基于 数据 探索 的 方法 ,这 种 方法 的 本 质 就 是 基 
于 大 数据 探索 与 发 现 自然 和 社会 的 规律 。 

大 数据 正 日 益 对 生产 、 流 通 、 分 配 、 消 费 活动 以 及 经 济 运行 机 制 , 社 会 生活 方式 和 国家 
治理 能 力 产生 重要 影响 。 大 数据 的 应 用 已 逐步 深入 我 们 生活 的 方方面面 ,涵盖 医疗 、 交 
通 .金融 教育、 体育 .零售 等 各 行 各 业 。 下 面 我 们 列举 几 个 大 数据 应 用 的 典型 案例 。 

(1) 2014 年 最 热门 的 美剧 非 4 纸 牌 屋 》 莫 属 。《 纸 牌 屋 》 风 靡 北美 力 至 全 球 的 一 个 重 
要 原因 ,是 大 数据 分 析 的 结果 。 美 国 网 飞 (Netflix) 公 司 是 一 家 在 线 影 片 租赁 提供 商 , 该 
公司 的 网 站 有 近 3 000 万 订阅 用 户 , 这 些 用户 在 网 站 上 收看 视频 的 大 量 行为 数据 都 被 记 
录 下 来 。 据 统计 ,用 户 每 天 在 网 飞 上 产生 3 000 多 万 个 行为 ,包括 暂停 .回放 、 添 加 书签 以 
及 每 天 300 万 次 搜索 、400 万 个 评分 。 网 飞 对 这 些 数据 和 收视 调查 等 相关 数据 进行 综合 
分 析 后 发 现 , 喜 欢 观看 BBC 老 版 (纸牌 屋 》 的 用 户 ,大 多 喜欢 大 卫 。 芬 奇 导 演 或 凯 文 。 史 
派 西 主 演 的 电视 剧 , 于 是 网 飞 做 出 了 拍摄 (纸牌 屋 》 的 决策 ,投资 1 亿美 元 拍摄 了 新 版 4 纸 
牌 屋 》, 请 大 卫 。 芬 奇 执导 . 凯 文 。 史 派 西 做 主演 。 结 果 , 大 数据 技术 让 网 飞 公司 赚 得 盆 满 
钵 溢 。 

(2) 无 论 是 在 国内 还 是 国外 ,体育 行业 都 蕴含 巨大 的 商机 。 例 如 ,美国 职业 篮球 联赛 
(NBA) 的 纽约 尼克 斯 队 在 2013 年 就 产生 了 2. 87 亿美 元 的 收入 。 各 支 球 队 为 了 最 大 化 
自己 的 收入 ,必须 在 球场 上 不 断 赢 球 ,因此 教练 组 和 相关 人 员 必 须 一 直 做 出 正确 的 决策 。 
而 在 这 些 决策 中 ,体育 的 大 数据 分 析 扮 演 了 一 个 日 益 重 要 的 角色 。 

2015 一 2016 美国 NBA 赛季 ,骑士 从 1: 3 落后 ,到 4 :3 夺冠 ,创造 了 NBA 总 决赛 的 
历史 。 但 球员 的 爆发 ,大 劣势 下 的 首 转 ,这 一 切 的 发 生 都 不 是 偶然 的 。 大 数据 文摘 发 现 ， 
在 2015 一 2016NBA 总 决赛 最 后 一 场 ,骑士 队 的 后 卫 JR 史密斯 在 场 上 很 好 地 充当 了 球 队 
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第 三 得 分 点 ,13 投 5 中 得 到 12 分 4 篮板 2 助攻 ,其 中 三 分 球 8 中 2。 这 样 的 例子 其 实在 
NBA 的 赛场 上 比比 丝 是 ,球员 并 不 是 机 器 ,他 们 的 语言 .行为 其 实 都 无 时 无 刻 不 在 透露 大 
量 可 被 分 析 和 深度 挖掘 的 信息 。 如 何 有 效 地 将 这 些 信息 转化 为 知识 ,又 如 何 利 用 这 些 知 
识 来 帮助 人 们 做 正确 的 决策 ? 

运用 大 数据 的 体育 数据 分 析 包 括 运用 统计 工具 来 分 析 球 员 的 历史 表现 。 球 队 老 板 凭 
借 分 析 结 果 来 组 建 球 队 ,教练 组 结合 分 析 结 果 和 他 们 的 专业 知识 来 调整 上 场 阵 容 , 提 高 球 
员 的 赛场 表现 。 比 如 ,利用 非 结 构 化 社交 媒体 数据 来 提升 现 有 体育 分 析 模型 效率 ,通过 自 
然 语 言 处 理 和 文本 挖掘 技术 来 分 析 NBA 球员 的 推 文 以 了 解 他 们 的 赛 前 情绪 ,从 而 提高 
对 球员 赛场 表现 的 预测 的 准确 性 。 

比如 ,2016 年 5 月 9 日 西部 半 决 赛 第 四 场 ,雷霆 主场 战胜 马刺 ,成 功 扳平 大 比分 。 而 
当地 时 间 是 母亲 节 , 杜 兰 特 全 场 出 场 43 分 钟 , 拿 下 41 分 ,5 篮板 ,4 助攻 ,成 为 球 队 取胜 的 
关键 。 众 所 周知 , 杜 兰 特 与 母亲 感情 非常 好 ,其 第 一 次 荣获 常规 赛 MVP 发 表演 讲 时 ,更 
是 着 重 描述 了 童年 时 母亲 的 不 易 以 及 与 母亲 感情 的 深厚 。 而 在 比赛 前 ,两 队 的 明星 球员 
中 ,只 有 杜 兰 特 特 意 发 表 推 文 “So proud of my mama”, 以 此 来 表达 对 母亲 的 感谢 ,这 也 就 
不 难 解释 杜 兰 特 在 本 场 比赛 的 爆发 了 。? 

(3) 2015 年 5 月 ,美国 费城 外 一 列 美国 铁路 公司 火车 在 一 处 急 转 弯路 段 发 生 脱 轨 事 故 ， 
造成 5 人 死亡 和 超过 200 人 受伤 。 在 费城 到 纽约 的 这 一 常用 路 段 上 ,此 次 事故 的 发 生 显得 
非 比 寻 常 。 次 日 早晨 ,半岛 电视 台 美 国 频道 发 布 了 脱轨 前 火车 的 准确 行驶 速度 ; 每 小 时 106 
英里 ( 约 合 每 小 时 170 千 米 ), 这 超过 了 该 路 段 限 速 (每 小 时 80 千 米 ) 的 2 倍 之 多 。 

之 所 以 能 如 此 迅速 地 做 到 这 一 点 ,是 因为 在 此 事 发 生 的 一 年 之 前 ,他 们 就 已 经 开始 仔 
细 调 查 美 铁 列车 ,设计 了 追踪 其 行驶 的 地 图 ,每 隔 5 分 钟 收集 和 存储 一 次 数据 。 数 据 可 以 
提供 国内 每 列 火 车 的 实时 定位 和 行驶 速度 。 因 此 ,通过 找到 事故 发 生 之 前 的 定位 ,他 们 在 
一 张 交 互 式 的 注释 图 中 准确 定位 了 该 趟 列车 的 行驶 轨道 。 在 后 续 追 踪 和 分 析 从 同一 弯 道 
通过 的 几 百 趟 火车 的 行驶 数据 后 ,他 们 发 现 大 部 分 火车 的 行驶 速度 都 低 于 50 英里 /小 时 ， 
而 出 事 的 火车 却 是 一 个 特例 。 

该 报道 获得 了 2016 年 全 球 数据 新 闻 奖 (DJA) 年 度 最 佳 突 发 新 闻 数 据 使 用 奖 。 

(4) 淘宝 目前 占据 中 国 网 络 购物 75% 的 市 场 份额 ,每 天 产生 的 数据 量 达到 了 7 
(7 000G)。 这 些 数据 当中 大 部 分 是 由 消费 者 、 商 家 产生 的 交易 数据 ,包括 交易 时 间 、 商 品 
价格 、 购 买 数 量 等 ,更 重要 的 是 ,这 些 信息 可 以 与 客户 和 商家 的 年 龄 性别、 地 址 ,甚至 兴 
爱好 等 个 人 特征 信息 相 匹 配 。 阿 里 巴巴 集团 董事 局 主席 马云 表示 ,阿里 巴巴 公司 本 质 上 
是 一 家 数据 公司 ,做 淘宝 不 是 为 了 卖 货 ,而 是 为 了 获得 所 有 零售 的 数据 和 制造 业 的 数据 ; 
做 物流 不 是 为 了 送 包 庄 ,而 是 为 了 将 这 些 数据 融合 在 一 起 。 淘 宝 数据 魔方 是 淘宝 网 的 大 
数据 分 析 平 台 ,通过 这 一 平台 ,商家 可 以 了 解 淘宝 网 上 的 行业 宏观 情况 和 自己 品牌 的 市 场 
状况 ,也 可 以 分 析 竞 争 对 手 ,探究 消费 买卖 行为 等 ,并 据 此 进行 生产 .库存 决策 ,而 与 此 同 
时 ,更 多 的 消费 者 也 能 以 更 优惠 的 价格 买 到 更 心仪 的 宝贝 。 另 外 ,阿里 信用 贷款 则 是 阿里 
巴巴 通过 所 掌握 的 企业 交易 数据 ,借助 大 数据 技术 自动 分 析 判 定 是 和 否 给 予 企业 贷款 ,全 程 
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只 有 少量 人 工 干 预 。 据 透露 ,截至 目前 阿里 巴巴 已 经 放贷 300 多 亿 元 ,坏账 率 仅 0.3% 左 
右 , 大 大 低 于 同类 银行 。 

(5) 美国 加 州 大 学 洛杉矶 分 校 的 研究 者 根据 大 数据 理论 设计 了 一 款 “ 电 力 地 图 ”, 将 
人 口 调查 信息 以 及 电力 企业 提供 的 用 户 实时 用 电信 息 与 地 理 、 气 象 等 信息 全 部 集合 在 
起 ,制作 了 一 款 加 州 地 图 。 该 地 图 以 街区 为 单位 ,展示 每 个 街区 在 当下 时 刻 的 用 电量 ,其 
至 还 可 以 将 这 个 街区 的 用 电量 与 该 街区 人 的 平均 收入 和 建筑 物 类 型 等 进行 比照 ,从 而 得 
出 更 为 准确 的 社会 各 群体 的 用 电 习 惯 信息 。 这 个 地 图 为 城市 和 电网 规划 提供 了 直观 有 效 
的 负荷 数 预测 依据 ,知道 哪些 地 区 的 用 电 负 荷 和 停电 频率 过 高 ,甚至 可 以 预测 哪些 线路 可 
能 出 现 故障 。 

(6) UPS 是 总 部 位 于 美国 亚特兰大 的 全 球 最 大 包 庄 快递 公司 ,5 个 工作 日 在 全 球 
的 送 件 量 就 能 达到 15. 8 亿 件 。 为 了 监督 管理 员工 并 优化 行车 路 线 , UPS 在 货车 上 安 
装 了 GPS 等 传感器 ,由 此 获得 了 货车 的 各 种 运行 数据 ,包括 送 货 时 间 、 行 车 路 线 、 燃 油 
消耗 等 ,UPS 采用 其 开发 的 Orion 系统 对 这 些 海量 数据 进行 道路 优化 分 析 。 据 报道 ， 
Orion 可 实时 分 析 20 万 种 可 能 路 线 ,能 在 大 约 3 秒 内 找 出 最 佳 路 线 。Orion 的 分 析 结 
果 还 表明 卡车 左 转 会 导致 货车 长 时 间 的 等 待 。 截 至 2013 年 年 底 ,Orion 已 经 在 大 约 1 
万 条 线路 上 得 到 使 用 ,这 让 UPS 公司 节省 了 150 万 加 仑 燃料 , 少 排放 了 1. 4 万 立方 公 
吨 的 二 氧化 碳 。 





1.5 大 数据 时 代 的 新 机 遇 和 新 挑战 


大 数据 时 代 ,“ 资 源 ” 的 含义 正在 发 生 极 大 的 变化 , 它 已 不 再 仅仅 只 是 指 石 油 、 煤 、 矿 产 
等 一 些 看 得 见 、 摸 得 着 的 实体 ,大 数据 也 正在 演变 成 为 不 可 或 缺 的 基础 性 战略 资源 。 互 联 
网 和 物 联网 每 天 都 在 产生 大 量 的 数据 ,这 些 庞大 的 数据 资源 为 人 类 社会 的 发 展 提供 了 强 
大 的 推动 力量 。 


1.5.1 依据 大 数据 进行 决策 成 为 一 种 新 的 决策 方式 


从 大 数据 中 获取 有 价值 的 知识 ,让 数据 主导 决策 ,是 一 种 前 所 未 有 的 决策 方式 。 大 数 
据 分 析 和 预测 在 人 类 决策 管理 方面 正 扮演 着 越 来 越 重 要 的 角色 。 例 如 ,2009 年 美国 爆发 
了 甲 型 Hi Ni 流感 病毒 ,谷歌 公司 通过 观察 人 们 在 网 上 搜索 的 大 量 记录 ,在 流感 爆发 的 几 
周 前 ,就 判断 出 流感 是 从 哪里 传播 出 来 的 ,从 而 使 公共 卫生 机 构 的 官员 获得 了 极 有 价值 的 
数据 信息 ,并 做 出 有 针对 性 的 行动 决策 ,而 这 比 疾病 控制 中 心 的 判断 提前 了 两 周 。 又 如 ， 
美国 的 Farecast 系统 的 一 个 功能 就 是 飞机 票 价 预测 ,通过 分 析 从 旅游 网 站 获得 的 大 量 机 
票 销 售 价格 数据 ,预测 出 某 一 航班 的 机 票 价格 在 未 来 一 段 时 间 内 的 涨 跌 趋 势 , 从 而 帮助 乘 
客 选择 最 佳 的 购 票 时 机 ,从 而 降低 购 票 成 本 。 


1.5.2 大 数据 与 各 行业 深度 融合 带 来 层出不穷 的 新 应 用 


当今 社会 ,政府 .工业 交通, 物流 、 商 贸 、 金 融 、 电 信和 和 能源 等 行业 领域 甚至 新 闻 传 媒 
领域 都 正在 遭遇 爆发 式 增长 的 数据 量 。 据 报道 ,美国 很 多 世界 500 强大 企业 拥有 大 量 的 
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数据 ,其 平均 拥有 的 数据 量 已 经 远 远 超 过 了 美国 国会 图 书馆 所 拥有 的 数据 量 。 大 数据 的 
存在 加 速 了 各 行 各 业 与 信息 技术 的 深度 融合 。 有 专家 指出 ,融合 是 大 数据 的 价值 所 在 ,大 
数据 与 各 行业 深度 融合 会 进一步 释放 大 数据 的 能 量 , 从 而 改变 当今 社会 每 一 个 行业 的 管 
理 模 式 和 生产 经 营 模式 。 例 如 ,在 农业 领域 ,硅谷 有 一 家 气候 公司 ,从 美国 气象 局 等 数据 
库 中 获得 几 十 年 的 天 气 数据 ,将 各 地 降雨 .气温 .土壤 状况 与 历年 农作物 产量 的 相关 度 做 
成 精密 图 表 ,预测 农场 来 年 产量 ,向 农户 出 售 个 性 化 保险 。 在 商业 领域 ,沃尔玛 公司 通过 
分 析 销 售 数据 ,了 解 顾客 购物 习惯 ,得 出 适合 搭配 在 一 起 出 售 的 商品 ,还 可 从 中 细 分 顾客 
群体 ,提供 个 性 化 服务 。 在 金融 领域 ,华尔街 德 温 特 资本 市 场 公司 分 析 3. 4 亿 微 博 账 户 留 
言 ,判断 民众 情绪 ,依据 人 们 高 兴 时 买 股 票 . 焦 虑 时 抛售 股票 的 规律 ,决定 公司 股票 的 买 人 
或 卖 出 。 在 社会 安全 管理 领域 ,通过 对 手机 数据 的 挖掘 ,可 以 分 析 实 时 动态 的 流动 人 口 来 
源 、 出 行 ,实时 交通 客流 信息 及 拥堵 情况 。 利 用 短信 、 微 博 、 微 信和 搜索 引擎 ,可 以 收集 热 
点 事件 ,挖掘 与 情 , 还 可 以 追踪 造谣 信息 的 源头 。 美 国 麻 省 理工 学 院 通 过 对 十 万 多 人 和 手机 
的 通话 .短信 和 空间 位 置 等 信息 进行 处 理 , 提 取 人 们 行为 的 时 空 规律 性 ,进行 犯罪 预测 。 


1.5.3 大 数据 推动 新 技术 的 不 断 涌现 


数据 科学 与 其 他 学 科 的 融合 以 及 大 数据 的 应 用 需求 ,导致 了 新 学 科 和 新 技术 的 不 断 
涌现 。 例 如 ,在 科学 研究 领域 ,基于 密集 数据 分 析 成 为 继 实 验 科学 、 理 论 科学 和 计算 科学 
之 后 的 第 四 种 科学 探索 方式 ,基于 大 数据 分 析 的 材料 基因 组 学 和 合成 生物 学 等 正在 兴起 。 
大 数据 带动 了 数据 可 视 化 分 析 技 术 的 研究 和 发 展 ,利用 计算 机 自动 化 分 析 能 力 的 同时 , 充 
分 挖掘 人 对 于 可 视 化 信息 的 认 知 能 力 优势 ,将 人 、 机 的 各 自强 项 进行 有 机 融合 ,借助 人 机 
交互 式 分 析 方 法 和 交互 技术 ,辅助 人 们 更 为 直观 和 高 效 地 洞悉 大 数据 背后 的 信息 、 知 识 与 
智慧 。 近 年 来 ,大 数据 与 神经 计算 ,深度 学 习 、 语 义 计算 以 及 其 他 人 工 智 能 相关 技术 相 结 
合 ,促进 人 工 智能 技术 不 断 提 高 ,使 计算 机 系统 拥有 了 更 好 的 对 数据 的 理解 .推理 发现 和 
决策 能 力 。 

目前 ,虽然 社会 上 出 现 了 一 些 应 用 大 数据 技术 的 成 功 案例 ,但 是 大 数据 的 应 用 仍 存在 
一 些 困 难 与 挑战 ,主要 体现 在 以 下 四 个 方面 。 

第 一 ,在 数据 收集 方面 。 大 数据 的 数据 量 不 仅 巨 大 ,而 且 数据 结构 种 类 繁多 ,不 仅仅 
有 简单 的 、 结 构 化 的 数据 ,更 多 的 则 是 复杂 的 、 非 结构 化 的 数据 ,而 且 数 据 之 间 的 关系 较为 
复杂 。 如 何 从 不 同 的 数据 源 及 时 收集 到 所 需要 的 数据 面临 巨大 的 困难 ,并 且 大 量 不 同 数 
据 源 的 数据 之 间 可 能 存在 冲突 、 不 一 致 或 相互 矛盾 的 现象 。 为 了 保证 所 收集 的 数据 的 质 
量 ,就 必须 识别 和 检测 大 数据 中 的 错误 、 缺 失 、 无 效 数据 ,这 给 大 数据 环境 中 数据 质量 的 监 
测 和 管理 带 来 巨大 的 挑战 。 

第 二 ,在 数据 存储 方面 。 由 于 大 数据 的 数据 结构 的 多 样 性 ,单一 的 数据 结构 (如 传统 
关系 型 数据 库 中 的 二 维 表 结 构 ) 已 经 远 远 不 能 满足 大 数据 存储 的 需要 。 据 调查 ,目前 国 
内 外 大 部 分 企业 的 业务 数据 仍 以 结构 化 数据 为 主 , 相 应 地 主要 采用 传统 关系 型 数据 库 进 
行 数 据 的 存储 。 对 于 非 结构 化 数据 , 则 是 先 将 其 转化 为 结构 化 数据 后 再 进行 存储 、 处 理 及 
分 析 。 这 种 数据 存储 处 理 方式 不 仅 无 法 应 对 大 数据 数量 庞大 、 数 据 结构 复杂 、 变 化 速度 快 
等 特点 ,而 且 一 旦 转化 方式 不 当 , 将 会 直接 影响 数据 的 完整 性 .有效 性 与 准确 性 。 因 此 , 需 
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要 开发 专门 的 数据 库 技 术 和 专用 的 数据 存储 设备 进行 大 数据 的 存储 ,保证 数据 存储 的 有 
歼 狂 s 

第 三 ,在 数据 分 析 处 理 方面 。 有 些 行业 的 数据 涉及 上 百 个 参数 ,其 复杂 性 不 仅 体现 在 
数据 本 身 ,更 体现 在 数据 之 间 在 多 源 异 构 、 多 实体 和 多 空间 之 间 的 动态 关联 ,难以 用 传统 
的 方法 描述 与 度量 ,处 理 的 复杂 度 很 高 。 例 如 ,需要 将 高 维 图 像 等 多 媒体 数据 降 维 后 度量 
与 处 理 , 或 者 利用 上 下 文 关联 进行 语义 分 析 , 从 大 量 动 态 而 且 可 能 是 模棱两可 的 数据 中 综 
合 信息 ,并 导出 可 理解 的 内 容 等 。 目 前 ,尽管 计算 机 智能 分 析 技 术 有 了 很 大 进步 ,但 还 只 
能 针对 小 规模 、 有 结构 或 类 结构 的 数据 进行 分 析 , 还 不 能 胜任 对 大 数据 的 深层 次 的 数据 挖 
据 。 男 外 ,速度 是 规模 的 男 一 面 ,需要 处 理 的 数据 集 越 大 ,分 析 所 花费 的 时 间 将 越 长 。 在 
大 数据 背景 下 ,许多 时 候 面 对 漠 涌 的 数据 流 要 求 立 即 得 到 分 析 结 果 , 这 种 及 时 性 的 要 求 也 
是 大 数据 分 析 处 理 的 另 一 个 挑战 。 

第 四 ,在 安全 风险 方面 。 首 先 , 大 数据 容易 成 为 黑客 攻击 的 首要 目标 。 大 数据 是 宝贵 
的 资源 ,不 仅 意 味 着 海量 的 数据 ,也 意味 着 更 复杂 、 更 敏感 的 数据 ,这 些 数据 会 吸引 更 多 的 
黑客 ,成 为 更 具 吸引 力 的 目标 。 并 且 大 数据 中 的 数据 大 量 聚 集 ,使 得 黑客 一 次 成 功 的 攻击 
就 能 导致 严重 的 安全 事故 ,例如 ,用 户 大 量 的 个 人 信息 被 泄露 。 其 次 ,大 数据 加 大 了 隐私 
泄露 风险 。 大 数据 的 来 源 涵 盖 非 常 广阔 的 范围 ,如 可 能 来 自 可 穿戴 设备 的 传感器 、 社 交 网 
络 .智能 手机 电子 邮 件 等 ,这 些 数据 可 能 包含 了 个 人 的 隐私 和 各 种 行为 的 细节 记录 ,大 量 
个 人 数据 的 聚集 不 可 避免 地 加 大 了 隐私 泄露 的 风险 。 


1.6 本 书 的 特定 视野 


大 数据 是 信息 社会 的 宝贵 资源 。 但 大 数据 的 价值 是 掩埋 在 沙子 之 中 的 ,大 数据 的 价 
值 也 不 是 单方 面 的 ,而 是 多 元 的 。 要 把 大 数据 的 价值 发 掘 出 来 ,就 要 凭借 数据 分 析 。 数 据 
分 析 有 多 种 类 型 ,适用 于 多 种 目的 。 抱 着 不 同 的 目的 ,运用 不 同 的 方法 ,我 们 可 以 在 多 个 
方面 对 大 数据 进行 不 同 的 分 析 。 在 统计 学 领域 ,有 些 人 将 数据 分 析 划 分 为 描述 性 统计 分 
析 探索 性 数据 分 析 和 验证 性 数据 分 析 。 所 谓 描述 性 统计 分 析 ,就 是 对 一 组 数据 的 各 种 特 
征 进 行 分 析 , 以 便 描 述 测量 样本 的 各 种 特征 及 其 所 代表 的 总 体 的 特征 。 描 述 性 统计 分 析 
的 项 目 很 多 ,常用 的 如 平均 数 、 标 准 差 .中 位 数 、 频 数 分 布 . 正 态 或 偏 态 程 度 等 。 这 些 分 析 
是 复杂 统计 分 析 的 基础 。 所 谓 探索 性 数据 分 析 (exploratory data analysis, EDA ) 是 指 对 
已 有 的 数据 (特别 是 调查 或 观察 得 来 的 原始 数据 ) 在 尽量 少 的 先 验 假定 下 进行 探索 ,通过 
作 图 、 制 表 、 方 程 拟 合 、 计 算 特 征 量 等 手段 探索 数据 的 结构 和 规律 的 一 种 数据 分 析 方 法 。 
特别 是 当 我 们 对 这 些 数据 中 的 信息 没有 足够 的 经 验 , 不 知道 该 用 何 种 传统 统计 方法 进行 
分 析 时 ,探索 性 数据 分 析 就 会 非常 有 效 。 探 索性 数据 分 析 在 20 世纪 60 年 代 被 提出 ,其 方 
法 由 美国 著名 统计 学 家 约翰 。 图 基 (John Tukey) 命 名 。 验 证 性 数据 分 析 则 侧重 已 有 假 
设 的 证 实 或 证 伪 ,在 应 用 分 析 中 ,大 量 的 分 析 都 涉及 验证 性 数据 分 析 。 本 书 所 列举 的 案 
例 ,大 多 数 涉及 的 就 是 验证 性 数据 分 析 。 大 数据 是 浩瀚 无 际 的 大 海 ,我 们 每 个 人 现在 有 能 
力 采 搬 的 可 能 只 是 小 小 的 一 杯 水 ,或 者 一 条 小 小 的 浪花 。 本 书 无 论 从 案例 的 分 析 或 是 其 
他 方面 的 论述 ,侧重 的 都 是 大 数据 在 经 济 社 会 实际 应 用 中 的 求证 或 求 伪 ,这 是 本 书 的 特定 
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视野 。 本 书 选择 的 都 是 在 政府 服务 经济 监督 .社会 治理 和 经 济 运行 等 方面 提出 的 实际 问 
题 ,探索 用 大 数据 分 析 的 方法 回答 和 处 理 , 也 就 是 坚持 问题 导向 ,把 大 数据 分 析 与 经 济 社 
会 的 实际 应 用 需求 紧密 结合 起 来 ,在 融合 中 探索 大 数据 解决 方案 。 

大 数据 和 传统 数据 库 有 着 密切 的 联系 。 传 统 数 据 库 是 大 数据 的 一 个 重要 的 组 成 部 
分 ,大 数据 是 传统 数据 库 处 理 能 力 的 拓展 和 延伸 。 从 这 种 认识 出 发 ,本 书 在 探索 数据 分 析 
技术 和 方法 ,分 析 应 用 案例 的 时 候 既 注意 敏锐 观察 大 数据 发 展 的 新 特点 ,又 注意 运用 传统 
的 数据 分 析 技 术 , 尤 其 注意 不 同 数据 的 融合 ,综合 运用 适用 的 技术 和 方法 。 这 也 是 本 书 讨 
论 应 用 分 析 技 术 和 方法 的 一 个 着 重点 。 
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2.1 大 数据 的 处 理 流 程 


当 生产 和 生活 中 产生 了 海量 数据 之 后 ,人 们 为 了 充分 发 现 和 利用 这 些 海量 数据 列 藏 
的 价值 ,需要 对 这 些 海 量 数据 进行 一 系列 的 处 理 。 大 数据 的 处 理 流程 可 以 定义 为 在 合适 
工具 的 辅助 下 ,对 大 量 异 构 的 数据 源 进行 抽取 和 集成 ,然后 按照 一 定 的 标准 统一 存储 ,再 
利用 合适 的 数据 分 析 技 术 对 存储 的 数据 进行 分 析 , 从 中 提取 有 益 的 知识 并 利用 恰当 的 方 
式 将 结果 展现 给 终端 用 户 。 大 数据 的 数据 来 源 广 泛 , 由 此 导致 应 用 需求 和 数据 类 型 千 差 
万 别 ,但 总 的 来 说 ,大 数据 的 基本 处 理 流程 大 都 是 一 致 的 。 大 数据 处 理 流 程 具 体 可 划分 为 
数据 采集 、 数 据 的 处 理 与 集成 数据 分 析 和 数据 的 解释 四 个 阶段 ,如 图 2-1 所 示 。 

整个 大 数据 的 处 理 流 程 大 致 如 下 : 首先 ,从 大 量 异 构 的 数据 源 获取 数据 ;其 次 ,根据 
数据 类 型 的 不 同 (包括 结构 化 数据 、 半 结构 化 数据 和 非 结 构 化 数据 ) ,采用 特殊 方法 (包括 
数据 聚合 数据 修正 、 数 据 清 洗 、 数 据 去 品 ) 对 数据 进行 处 理 和 集成 ,将 其 转变 为 统一 标准 
的 数据 格式 ;最 后 ,用 合适 的 数据 分 析 方 法 对 这 些 数据 进行 分 析 , 并 利用 可 视 化 等 技术 将 
分 析 的 结果 展现 给 用 户 。 

1. 数据 采集 

数据 采集 是 大 数据 处 理 流程 中 最 基础 的 一 步 , 由 于 大 数据 的 数据 量 大 、 数 据 种 类 复 
杂 , 因 此 ,通过 各 种 方法 获取 数据 便 显得 格外 重要 。 目 前 常用 的 数据 采集 手段 包括 通过 传 
感 絮 (如 麦克 风 、 摄 像 头等 ) 获 得 、 通 过 读 取 射 频 识别 卡 (RFID) 信 息 、 通 过 搜索 引擎 (如 百 
度 和 谷歌 等 ) 采 集 以 及 通过 网 页 息 虫 从 互联 网 上 采集 等 。 随 着 物 联 网 移动 设备 和 社交 网 
络 的 普及 和 发 展 ,所 需 采 集 的 数据 量 会 变 得 越 来 越 大 ,数据 类 型 也 会 千差万别 。 

2. 数据 的 处 理 与 集成 

数据 的 处 理 与 集成 主要 是 对 已 经 采集 到 的 数据 进行 适当 的 处 理 ,清洗 去 噪 以 及 进 一 
步 集成 存储 。 从 第 1 章 中 ,我 们 知道 数据 种 类 繁多 是 大 数据 的 一 个 重要 特点 ,这 就 决定 了 
从 各 种 渠道 获取 的 数据 种 类 和 结构 都 非常 复杂 ,给 之 后 的 数据 分 析 处 理 带 来 了 极 大 的 困 
难 。 通 过 数据 的 处 理 与 集成 这 一 步骤 ,将 这 些 结构 复杂 的 数据 转换 为 单一 的 或 是 便于 处 
理 的 数据 结构 ,为 以 后 的 数据 分 析 打 下 良好 的 基础 。 因 为 这 些 数据 里 并 不 是 所 有 的 信息 
都 是 必需 的 ,而 是 会 摊 杂 很 多 噪声 和 干扰 项 ,因此 ,还 需 对 这 些 数据 进行 “去 噪 ” 和 清洗 ,以 
保证 数据 的 质量 以 及 可 靠 性 。 

3. 数据 分 析 

数据 分 析 是 整个 大 数据 处 理 流程 里 核心 的 部 分 ,因为 大 数据 的 价值 产生 于 分 析 过 程 。 
在 数据 分 析 的 过 程 中 ,会 发 现 数据 的 价值 所 在 。 经 过 上 一 步骤 数据 的 处 理 与 集成 后 ,所 得 
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图 2-1 大 数据 处 理 的 基本 流程 





到 的 数据 便 成 为 数据 分 析 的 原始 数据 ,用 户 会 根据 不 同 的 分 析 目 的 和 应 用 需求 对 这 些 数 
据 进行 进一步 的 处 理 和 分 析 。 数 据 分 析 方法 主要 包括 数据 挖掘 .机 器 学 习 、 智 能 算法 、 统 
计 分 析 等 。 本 章 首先 重点 介绍 大 数据 分 析 的 基本 概念 ,最 后 将 通过 具体 案例 进一步 介绍 


大 数据 分 析 的 方法 。 

4. 数据 的 解释 

ee ne 心 的 并 非 数 据 分 析 处 理 的 过 程 ,而 是 对 大 数据 分 析 结 
果 的 解释 与 展示 。 因 此 ,在 一 善 的 数据 分 析 流 程 中 ,对 数据 分 析 结 果 的 解释 至 关 重 


要 。 若 数据 分 析 的 结果 ee 
户 。 传 统 的 数据 显示 方式 是 以 文本 形式 或 者 简单 图 形 显 示 结 果 。 这 种 方法 在 数据 量 小 时 
一 种 很 好 的 选择 ,但 是 大 数据 时 代 的 数据 是 海量 的 ,同时 数据 之 间 的 关联 关系 极其 复 
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杂 , 采 用 传统 的 解释 方法 不 能 直观 、 明 白地 向 用 户 展示 数据 蕴含 的 规律 。 因 此 ,现在 人 们 
引入 了 “数据 可 视 化 技术 ”来 展示 和 解释 大 数据 的 分 析 结 果 。 通 过 可 视 化 技术 ,可 以 形象 
地 向 用 户 展示 数据 分 析 结 果 ,更 方便 用 户 对 结果 的 理解 和 接受 。 另 外 ,人 们 还 采用 人 机 交 
互 技术 ,利用 交互 式 的 数据 分 析 过 程 来 引导 用 户 逐 步 地 进行 分 析 , 使 用 户 在 得 到 结果 的 同 
时 更 好 地 理解 分 析 结 果 。 


2.2 大 数据 分 析 的 概念 


数据 分 析 是 指 用 适当 的 统计 方法 对 收集 来 的 大 量 数据 进行 分 析 , 为 了 提取 有 用 信息 
和 形成 结论 而 对 数据 加 以 详细 研究 和 概括 总 结 的 过 程 。 在 实际 应 用 中 ,数据 分 析 可 以 帮 
助人 们 作出 判断 ,以 便 采 取 合 适 的 行动 或 措施 。 数 据 分 析 的 数学 基础 在 20 世纪 早期 就 已 
确立 ,但 直到 计算 机 的 出 现 才 使 实际 操作 成 为 可 能 ,并 使 数据 分 析 得 以 推广 。 数据 分 析 是 
数学 与 计算 机 科学 相 结合 的 产物 。 

大 数据 分 析 是 指 对 规模 巨大 的 数据 进行 分 析 。 大 数据 之 所 以 备 受 关注 ,本 质 原因 在 
于 其 具有 巨大 的 潜在 价值 。 大 数据 分 析 技 术 作为 获取 数据 价值 的 关键 手段 ,在 大 数据 应 
用 中 占有 极其 重要 的 位 置 , 可 以 说 是 决定 大 数据 价值 能 否 发 掘 出 来 的 关键 因素 。 数 据 分 
析 是 整个 大 数据 处 理 流 程 的 核心 。 在 数据 分 析 过 程 中 ,人 们 采用 适当 的 方法 (包括 统计 分 
析 和 数据 挖掘 等 方法 ) ,对 采集 到 的 海量 数据 进行 详细 研究 和 概括 总 结 , 从 而 发 现 和 利用 
其 中 蕴含 的 信息 和 规律 。 大 数据 分 析 的 主要 目标 包括 : 推测 或 解释 数据 检查 数据 是 否 
合法 ,给 决策 提供 合理 建议 ,诊断 或 推断 错误 原因 以 及 预测 未 来 将 要 发 生 的 事情 。 

根据 大 数据 的 数据 类 型 ,可 以 把 大 数据 分 析 划 分 成 如 下 三 类 。 

(1) 结构 化 数据 分 析 : 对 传统 关系 数据 库 数据 的 分 析 。 

(2) 半 结 构 化 数据 分 析 : 对 HTML 网 页 或 XML 文档 等 半 结 构 化 数据 的 分 析 。 

(3) 非 结 构 化 数据 分 析 : 对 图 像 声音 和 视频 等 非 结构 化 数据 的 分 析 。 

值得 一 提 的 是 ,大 数据 时 代 , 相 关 分 析 因 其 具有 可 以 快捷 、 高 效 地 发 现 事物 间 内 在 关 
联 的 优势 而 受到 广泛 的 关注 。 所 谓 大 数据 相关 关系 ,是 指 2 个 或 2 个 以 上 因素 之 间 在 某 
种 意义 下 所 存在 的 联系 和 规律 。 相 关 分 析 的 目的 在 于 探寻 大 数据 集 里 所 隐藏 的 内 在 关联 
关系 。 近 年 来 大 数据 相关 分 析 的 应 用 成 果 不 断 涌现 ,人 们 日 益 发 现 ,和 以 往 相 比 , 大 数据 
时 代 相 关 关 系 的 探索 具有 更 加 重要 的 价值 。 例 如 ,在 电子 商务 推荐 系统 中 ,通过 挖掘 用 户 
性 别 .家庭 情况 .居住 位 置 ` 以 往 的 购物 情况 、 商 品 特性 之 间 的 相关 关系 ,能 够 进行 有 针对 
性 的 商品 推荐 。 又 如 ,商业 企业 作为 大 数据 应 用 的 重要 领域 ,通过 分 析 管 理 措施 和 经 营 策 
略 与 利润 增长 具有 何 种 相关 性 ,可 以 帮助 企业 管理 者 调整 经 营 策略 ,实现 企业 利润 的 增 
长 。 综 合 来 看 ,大 数据 相关 分 析 已 经 成 为 大 数据 分 析 与 挖掘 的 核心 科学 问题 和 关键 应 用 
技术 。 

大 数据 分 析 的 出 现 不 是 对 传统 数据 分 析 的 否定 ,而 是 对 传统 数据 分 析 的 继承 和 发 展 ， 
传统 数据 分 析 方 法 中 的 数据 挖掘 和 统计 分 析 仍 然 在 大 数据 分 析 中 发 挥 重 要 的 作用 。 同 
时 ,大 数据 分 析 也 呈现 出 和 传统 数据 分 析 不 同 的 特征 ,表现 在 如 下 四 个 方面 。 

第 一 ,所 分 析 的 数据 量 不 一 样 。 传 统 的 数据 分 析 是 对 少量 的 数据 样本 进行 分 析 , 而 正 
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如 著名 的 大 数据 专家 迈 尔 一 舍 恩 伯 格 在 其 名 著 ( 大 数据 时 代 ; 一 书 中 指出 的 : 大 数据 要 分 
析 的 是 与 某 事物 相关 的 所 有 数据 ,而 不 是 依靠 分 析 少 量 的 数据 样本 。 

第 二 ,分 析 的 侧重 点 不 一 样 。 迈 尔 一 舍 恩 伯 格 在 (大 数据 时 代 ) 一 书 中 指出 : 大 数据 
分 析 的 重点 不 是 发 现 事物 之 间 的 因果 关系 ,而 是 发 现 事物 之 间 的 相关 关系 ,因此 相关 分 析 
是 大 数据 分 析 的 重要 内 容 。 

第 三 ,所 分 析 数 据 的 来 源 不 一 样 。 传 统 数据 分 析 的 对 象 大 多 局 限 在 同一 个 来 源 的 
数据 中 ,如 Oracle 数据 库 或 者 SQL Server 数据 库 中 的 数据 ,但 是 大 数据 分 析 更 强调 数 
据 融合 ,因为 每 一 种 数据 来 源 都 有 一 定 的 局 限 性 和 片面 性 ,只 有 对 各 种 来 源 的 原始 数 
据 进 行 融合 才能 反映 事物 的 全 貌 。 事 物 的 本 质 和 规律 往往 隐藏 在 各 种 原始 数据 的 相 
互 关联 之 中 。 

第 四 ,数据 的 解释 方式 不 一 样 。 可 视 化 分 析 在 传统 数据 分 析 中 只 是 一 种 辅助 分 析 手 
段 ,但 是 大 数据 分 析 中 更 强调 可 视 化 分 析 的 应 用 。 俗 话说 “一 幅 图 胜 过 千言 万 语 ”, 大 数据 
的 数据 内 容 纷繁 复杂 ,可 视 化 分 析 能 够 直观 地 呈现 大 数据 的 特点 ,有 利于 用 户 发 现 和 掌握 
其 中 的 规律 。 





2.3 大 数据 分 析 的 关键 技术 


大 数据 分 析 是 挖掘 大 数据 价值 的 手段 ,大 数据 分 析 技 术 对 于 准确 、 高 效 获得 大 数据 中 
隐藏 的 模式 和 规律 至 关 重 要 。 目 前 大 数据 分 析 的 关键 技术 包括 云 计 算 、 数 据 分 析 和 可 视 
化 等 多 种 技术 ,这 些 方法 随 着 大 数据 的 发 展 ,其 内 涵 和 外 延 也 在 不 断 发 展 和 变化 。 


2.3.1 云 计算 


云 计算 是 大 数据 分 析 处 理 的 基础 ,也 是 大 数据 分 析 的 支撑 技术 。 如 果 将 各 种 大 数据 

应 用 比 作 一 辆 辆 * 汽 车”, 支撑 起 这 些 “ 汽 车 ”运行 的 “高 速 公 路 ”就 是 云 计算 。 正 是 云 计 
rd Ani 因 
此 ,在 大 数据 时 代 , 大 数据 是 需求 , 云 计 算是 手段 ,没有 云 计算 就 无 法 处 理 大 数据 。 

对 于 云 计算 ,美国 国家 标准 与 技术 研究 院 的 定义 是 :“ 云 计算 是 一 种 按 使 用 量 付费 的 
模式 ,这 种 模式 提供 可 用 的 便捷 的 、 按 需 的 网 络 访问 ,让 使 用 者 可 以 访问 可 配置 的 计算 资 
源 ( 资 源 包括 网 络 、 服 务 器 、 存 储 、 应 用 软件 、 服 务 ) ,这 些 资源 能 够 被 快速 提供 ,只 需 投 入 很 
少 的 管理 工作 ,或 与 服务 供应 商 进行 很 少 的 交互 ”国内 专家 对 云 计 算 给 出 了 更 加 简洁 的 
定义 :“ 云 计算 是 一 种 商业 计算 模型 。 它 将 计算 任务 分 布 在 异地 大 量 计算 机 构成 的 资源 
池上 ,使 各 种 应 用 系统 能 够 根据 需要 获取 计算 力 、 存 储 空间 和 信息 服务 。” 在 这 个 定义 中 ， 
提供 资源 的 网 络 被 称 为 " 云 ”, 这 些 资源 包括 计算 服务 器 ,存储 服务 器 和 网 络 带宽 资源 等 。 
云 ” 通 过 网 络 向 使 用 者 按 需 提供 可 动态 扩展 的 廉价 计算 服务 和 存储 服务 。“ 云 ”中 的 资源 
A 并 且 可 以 随时 获取 、 按 需 使 用 、 随 时 扩展 、 按 使 用 付费 。 

通过 云 计 算 ,使 用 者 不 需要 购买 昂贵 的 硬件 设备 和 操作 软件 ,也 不 需要 专门 的 IT 维护 人 
员 , 只 需要 通过 网 络 就 可 以 随时 随地 使 用 云 计算 强大 的 计算 能 力 。 因 此 ,有 人 将 云 计 算 比 
喻 为 从 单 台 发 电机 供电 模式 转向 了 电厂 集中 供电 的 模式 ,这 意味 着 计算 能 力也 可 以 作为 
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一 种 商品 进行 流通 ,就 像 水 、 电 和 煤气 一 样 , 取 用 方便 ,费用 低廉 。 

云 计算 按照 服务 类 型 大 致 可 以 分 成 如 下 三 类 。 

(1) 将 基础 设施 作为 服务 (IaaS) : IaaS 将 硬件 设备 等 基础 资源 封装 成 服务 提供 给 用 
户 使 用 。 例 如 ,亚马逊 公司 的 弹性 计算 云 EC2 和 简单 存储 服务 S3 就 是 IaaS 的 典型 代 
表 。 在 IaaS 中 用 户 相当 于 获得 了 裸 机 和 磁盘 ,可 以 任意 安装 所 需要 的 软件 ,如 可 以 安装 
Windows 和 MS Office。 

(2) 将 平台 作为 服务 (PaaS) : PaaS 提供 用 户 应 用 程序 的 运行 环境 。 典 型 的 PaaS 包 
括 谷歌 的 App Engine 和 微软 的 MS Windows Azure。PaaS 相当 于 给 用 户 提 供 一 台 安 装 
了 操作 系统 的 计算 机 ,用 户 可 以 在 这 个 平台 上 继续 安装 所 需要 的 其 他 软件 。 

(3) 将 软件 作为 服务 (SaaS) : SaaS 将 某 些 特定 的 应 用 软件 封装 成 服务 提供 给 用 户 ， 
用 户 不 需要 在 本 地 安装 这 些 软件 ,只 需 通过 SaaS 就 可 以 在 线 使 用 。 例 如 ,谷歌 的 在 线 文 
档 处 理 软件 Google Docs 就 是 典型 的 SaaS。 用 户 不 需要 在 本 地 PC 机 上 安装 这 个 软件 ， 
只 要 有 网 络 ,就 可 以 在 线 使 用 它 来 完成 文档 编辑 、 排 版 .保存 和 打印 的 工作 。 

为 了 处 理 海量 的 Web 数据 ,谷歌 于 2006 年 首先 提出 了 云 计算 的 概念 。 谷 歌 基 于 云 
计算 平台 开发 了 支持 大 数据 应 用 的 一 系列 技术 ,包括 分 布 式 文件 系统 GFS、 分 布 式 数据 
处 理 MapReduce 以 及 分 布 式 数据 库 Bigtable。 这 些 技术 获得 了 广泛 的 应 用 ,其 中 GFS 为 
整个 大 数据 提供 了 底层 的 数据 贮存 支撑 架构 ,GFS 能 够 处 理 的 文件 很 大 ,容量 通常 都 在 
100MB 以 上 ,而 且 大 文件 在 GFS 中 可 以 被 有 效 地 管理 ;MapReduce 是 一 种 处 理 海量 数据 
的 并 行 运算 模式 ,特别 适用 于 非 结构 化 和 结构 化 的 海量 数据 的 搜索 .挖掘 和 分 析 ;Bigtable 
是 非 关 系 型 数据 库 ,能够 有 效 存 储 和 管理 大 数据 中 的 半 结 构 化 数据 和 非 结构 化 数据 ,这 对 
大 数据 集中 占 较 大 比例 的 非 结构 化 数据 非常 适用 。 

这 些 技术 对 大 数据 的 分 析 处 理 产生 了 深远 影响 ,催生 出 以 Hadoop 为 代表 的 一 系列 
开源 大 数据 处 理工 具 。 


2.3.2 数据 分 析 方法 


尽管 目标 和 应 用 领域 不 同 ,一 些 常 用 的 分 析 方 法 (如 统计 分 析 和 数据 挖掘 ) 对 大 数据 
同样 适用 。 

(1) 统计 分 析 : 在 统计 理论 中 ,通过 概率 理论 对 数据 的 随机 性 和 不 确定 性 建立 模型 。 
统计 分 析 技 术 可 以 分 为 描述 性 统计 技术 和 推断 性 统计 技术 。 描 述 性 统计 技术 对 数据 集 进 
行 总 结 或 描述 ,而 推断 性 统计 技术 则 能 够 对 过 程 进 行 推 新 。 统 计 分 析 方法 包括 回归 、 因 子 
分 析 、 聚 类 和 判别 分 析 等 。 

(2) 数据 挖掘 : 数据 挖掘 是 发 现 大 数据 集中 数据 模式 的 计算 方法 。 许 多 数据 挖掘 算 
法 已 经 在 人 工 智能 .机 器 学 习 、 模 式 识 别 、 统 计 和 数据 库 领 域 得 到 了 广泛 应 用 。 著 名 的 数 
据 挖掘 算法 包括 决策 树 、k-means 算法 .支持 向 量 机 、Apriori 算法 、 最 大 期 望 算法 、 
PageRank 算法 、AdaBoost 算法 、k 最 邻近 算法 、 朴 素 贝 叶 斯 和 分 类 与 回归 树 , 覆 盖 了 分 
类 、 聚 类 .回归 和 统计 学 习 等 方面 。 另 外 ,深度 学 习 和 遗传 算法 等 先进 的 智能 技术 也 被 用 
于 数据 挖掘 中 。 
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2.3.3 数据 可 视 化 


数据 可 视 化 是 解释 大 数据 的 有 效 手 段 之 一 。 数 据 可 视 化 技术 (Data Visualization) 是 
指 运用 计算 机 图 形 学 和 图 像 处理 技 术 ,将 数据 转换 为 图 形 或 图 像 在 屏幕 上 显示 出 来 ,并 进 
行 交 互 处 理 的 理论 、 方 法 和 技术 。 图 形 化 的 方式 比 文字 更 容易 被 用 户 理解 和 接受 ,数据 可 
视 化 将 抽象 的 数据 表现 成 为 可 见 的 图 形 或 图 像 , 帮 助人 们 直观 形象 地 发 现 数据 中 隐藏 的 
内 在 规律 。 

一 般 来 说 ,图 表 和 地 图 可 以 帮助 人 们 快速 理解 信息 。 但 是 , 当 数 据 量 增 大 到 大 数据 级 
别 时 ,传统 的 电子 表格 等 技术 已 不 能 清晰 展现 海量 数据 的 特点 ,因此 需要 研究 适用 于 大 数 
据 的 可 视 化 手段 。 目 前 ,大 数据 的 可 视 化 已 成 为 学 术 界 和 工业 界 的 一 个 活跃 的 研究 领域 ， 
出 现 了 一 些 成 功 的 案例 。 例 如 ,大 众 点 评 网 通过 地 图 的 方式 向 用 户 呈 现 每 一 天 全 国 各 地 
餐厅 最 火 的 菜品 以 及 人 均 消 费 ,为 用 户 的 消费 提供 参考 。 又 如 ,支付 宝 每 隔 一 段 时 间 ( 通 
常 为 一 个 月 ) 产 生 用 户 的 可 视 化 对 账单 ,其 中 反映 了 用 户 所 在 地 区 的 消费 趋势 以 及 用 户 本 
人 的 消费 情况 和 偏好 ,帮助 用 户 管理 自己 的 消费 支出 ,如 图 2-2 所 示 。 

男 外 ,也 出 现 了 一 些 支 持 数 据 可 视 化 的 工具 和 软件 ,如 R 语言 和 商业 数据 分 析 软 件 
Tableau 都 提供 了 强大 的 数据 可 视 化 分 析 功 能 
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图 2-2 支付 宝 对 账单 的 可 视 化 分 析 


2.4 大 数据 分 析 工 具 介 绍 


随 着 大 数据 应 用 的 不 断 发 展 和 普及 ,诞生 了 多 种 类 型 的 大 数据 分 析 工 具 , 这 些 工具 各 
有 千秋 ,有 的 偏重 数据 分 析 的 效率 和 扩展 的 灵活 性 ,有 的 偏重 可 视 化 分 析 , 有 的 只 适用 于 
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特定 的 应 用 领域 。 下 面 简单 介绍 五 种 目前 最 流行 的 大 数据 分 析 工 具 。 
2. 4.1 Hadoop 


在 大 数据 时 代 , 许 多 传统 的 数据 分 析 技 术 和 数据 库 技术 已 经 不 足以 满足 需求 ,许多 大 
数据 应 用 对 于 数据 分 析 和 管理 都 提出 了 新 的 要 求 。 正 如 前 面 提 到 的 , 云 计算 是 大 数据 分 
析 处 理 的 关键 技术 ,谷歌 的 云 计算 技术 对 大 数据 的 分 析 处 理 产 生 了 深远 影响 。Hadoop 
是 开源 的 云 计算 平 台 , 它 模仿 和 实现 了 谷歌 云 计算 的 主要 技术 。 现 在 Hadoop 已 经 发 展 
为 一 个 包括 分 布 式 文件 系统 HDFS、 分 布 式 数据 库 HBase 以 及 数据 分 析 处 理 MapReduce 
等 功能 模块 在 内 的 完整 生态 系统 ,目前 已 经 成 为 最 流行 的 大 数据 处 理 平台 。 用 户 可 以 从 
hadoop. apache. org 免费 下 载 和 安装 Hadoop 的 相关 软件 。 

英特尔 公司 根据 大 数据 处 理 的 要 求 ,提出 了 一 种 Hadoop 的 组 件 结构 ,集中 展现 了 大 
数据 的 采集 、 存 储 和 分 析 人 处 理 的 主要 功能 模块 ,如 图 2-3 所 示 。 
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图 2-3 英特尔 的 Hadoop 组 件 结构 


在 这 个 组 件 结构 中 ,MapReduce 是 分 布 式 数据 处 理 模式 , 它 可 以 将 复杂 的 处 理 任 务 
分 配给 一 群 服务 器 ,适合 海量 数据 的 处 理 。HDFS 是 一 种 类 似 于 谷歌 GFS 的 分 布 式 文件 
系统 ,可 以 为 大 规模 的 服务 器 集群 提供 高 速度 的 文件 读 写 访问 。HBase 是 一 种 与 谷歌 
BigTable 类 似 的 分 布 式 并 行 数据 库 系统 ,可 以 提供 海量 数据 的 存储 和 读 写 ,并 且 兼 容 各 
种 结构 化 或 非 结构 化 的 数据 。Mahout 是 Apache 软件 基金 会 的 一 个 开源 项 目 , 是 对 海量 
数据 进行 挖掘 分 析 的 软件 ,提供 了 丰富 的 数据 挖掘 和 机 器 学 习 功 能 。Hive 是 一 种 基于 
Hadoop 的 大 数据 分 布 式 数据 仓库 , 它 将 数据 存储 在 相应 的 分 布 式 数据 库 或 分 布 式 文件 
系统 中 ,使 用 SQL 语言 对 海量 数据 信息 进行 统计 、 查 询 和 分 析 等 操作 。Pig Latin 是 对 大 
规模 数据 进行 分 析 处 理 的 语言 , 它 结合 了 SQL 和 MapReduce 两 者 的 优点 ,可 以 像 SQL 
语言 那样 灵活 可 变 。Zookeeper 是 分 布 式 系统 的 协调 系统 ,可 以 提供 包括 配置 维护 、 名 字 
服务 .分布 式 同步 .组 服务 等 在 内 的 相关 功能 。Sqoop 是 一 个 用 来 将 Hadoop 和 关系 型 数 
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据 库 中 的 数据 双向 转移 的 工具 ,可 以 将 一 个 关系 型 数据 库 ( 如 Oracle、MySQL 等 ) 中 的 数 
据 导 入 Hadoop 的 分 布 式 文件 系统 HDFS 中 ,也 可 以 将 HDFS 的 数据 导入 关系 型 数据 库 
中 ,还 可 以 在 传输 过 程 中 实现 数据 转换 等 功能 。Flume 是 一 种 分 布 式 日 志 采 集 系 统 , 它 的 
作用 是 从 不 同 的 数据 源 系 统 中 采集 和 传输 大 量 的 日 志 数 据 到 一 个 集中 式 数据 存储 器 中 。 


2.4.2 R 


R 是 当今 最 受 欢迎 的 数据 分 析 和 可 视 化 平台 之 一 。R 是 开源 软件 ,任何 人 都 可 以 
从 www. r-project. org 免费 下 载 和 安装 R 软件 。R 是 由 一 种 名 为 S 的 统计 软件 演变 而 
来 的 。S 于 20 世纪 70 年 代 诞 生 在 美国 的 贝尔 实验 室 , 由 里 克 。 贝 克 (Rick Becker) 、 约 
翰 。 钱 伯 斯 (John Chambers) 和 艾 伦 ， 韦 尔 克 斯 (Allan Wilks) 三 人 共同 开发 。1995 年 
新 西 兰 奥克兰 大 学 的 罗斯 。 伊 哈 卡 (Ross Ihaka) 和 罗伯特 。 杰 特 曼 (Robertt 
Gentleman) 重 新 实现 了 S 的 部 分 功能 ,并 把 所 有 源 代码 公开 ,这 就 是 R 软件 。R 软件 中 
的 命令 统称 为 R 语言 。 

R 软件 能 够 成 为 受 人 们 欢迎 的 数据 分 析 软 件 ,是 与 其 优秀 的 特性 分 不 开 的 ,主要 包括 
下 列 特性 。 

(1) R 拥有 强大 的 统计 分 析 功 能 : R 内 能 了 许多 实用 的 统计 分 析 函 数 ,使 用 者 可 以 轻 
松 完成 各 种 统计 工作 。 除 了 R 内 山 的 统计 函数 外 ,R 还 以 “ 包 ” 的 形式 提供 了 扩展 的 数据 
分 析 功 能 ,以 满足 各 种 分 析 的 需要 。 目 前 R 拥有 超过 2 100 种 包 , 涵 盖 了 基本 统计 ,经济 
学 ,社会 学 ,生态 学 、 地 理学 、 医 学 、 生 物 信息 等 多 个 领域 ,使 用 者 可 以 根据 需要 下 载 安装 这 
些 包 来 扩展 R 的 统计 分 析 功 能 。 因 此 ,几乎 所 有 的 统计 分 析 工 作 都 可 以 通过 R 来 完成 。 

(2) R 拥有 强大 的 可 视 化 功能 : R 提供 了 丰富 的 2D 和 3D 绘图 函数 来 完成 数据 可 视 
化 ,并 能 将 这 些 可 视 化 结果 保存 为 多 种 形式 的 文件 ,如 jpg、bmp、pdf、png 等 。 

(3) R 完全 免费 : 用 户 可 以 免费 下 载 使 用 。 

(4) R 支持 多 种 操作 系统 平台 : R 可 以 运行 在 多 种 操作 系统 平台 上 ,如 Windows、 
Linux、Unix 和 MacOS ,当今 主流 的 计算 机 平台 都 可 以 运行 R。 

(5) R 的 帮助 功能 完善 : R 包含 了 一 个 非常 实用 的 帮助 系统 ,软件 的 帮助 文件 可 以 随 
时 通过 主 菜单 浏览 和 打印 。 通 过 help 命令 可 以 随时 了 解 R 所 提供 的 各 种 函数 的 使 用 方 
法 和 例子 。 


2.4.3 Python 


Python 是 目前 十 分 流行 的 编程 语言 ,根据 2015 年 TIOBE 编程 语言 排行 榜 , Python 
语言 已 成 为 除 Java 和 C/C++ 外 ,最 受 人 欢迎 的 编程 语言 。Python 也 是 开源 免费 软件 ,用 
户 可 以 从 www. python. org 下 载 和 安装 Python 的 开发 平台 。Python 语法 简单 清晰 , 容 
易学 习 掌 握 。Python 具有 丰富 和 强大 的 库 。 它 常 被 昵称 为 胶水 语言 ,能 够 很 轻松 地 把 其 
他 语言 开发 的 各 种 功能 模块 集成 到 所 开发 的 程序 中 。 随 着 Python 提供 的 统计 分 析 和 可 
视 化 函数 库 的 不 断 增加 和 完善 ,Python 语言 正成 为 一 种 数据 分 析 的 强大 语言 。Python 
语言 数据 分 析 的 函数 库 主要 包括 NumPy、SciPy、IPython 和 Pandas ,可 视 化 函数 库 包 括 
Matplotlib, 用 户 可 以 调用 这 些 函 数 库 完 成 各 种 数据 分 析 和 可 视 化 任务 。 
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2.4.4 RapidMiner 


RapidMiner 是 数据 挖掘 、 机 融 学 习 和 商业 预测 分 析 的 开源 软件 ,用 户 可 以 从 www. 
rapidminer. com 免费 下 载 和 使 用 。RapidMiner 除了 内 骨 数 据 挖掘 和 机 器 学 习 功 能 外 ,还 
可 以 与 R 软件 进行 协同 工作 ,通过 R 扩展 它 的 数据 分 析 功 能 。RapidMiner 和 R 及 
Python 最 大 的 区 别 在 于 它 不 需要 任何 编程 ,只 需 通过 鼠标 拖 放 ,就 能 完成 数据 挖掘 和 分 
析 的 功能 。 

在 RapidMiner 中 整个 数据 挖掘 过 程 就 像 是 车 间 的 生产 流水 线 。 在 RapidMiner 中 输 
入 原始 数据 ,经 过 一 系列 流程 后 输出 数据 分 析 结 果 或 预测 结果 。 其 中 ,流程 (process) 是 
指 按照 一 定 先 后 次 序 依次 执行 的 一 系列 分 析 人 处 理 函 数 ( 称 为 算 子 ,operataor)。 不 同 算 子 
有 不 同 的 输入 输出 特性 。RapidMiner 大 概 包 括 以 下 几 类 算 子 : 流程 控制 类 ,实现 循环 和 
条 件 功能 ;数据 输入 和 输出 类 ,实现 数据 交换 ; Wen 数据 抽取 、 清 洗 整 理 功 能 ; 建 模 
类 ,分 类 回归 建 模 、 关 联 分 析 、 聚 类 分 析 、 集 成 学 习 等 ;评估 类 ,多 重 交叉 检验 、 自 助 法 检 
验 等 。 


2.4.5 Tableau 


Tableau 是 当前 最 受 欢 迎 的 数据 分 析 和 可 视 化 软件 ,在 市 场 分 析 公 司 Gartner 2015 
年 2 月 公布 的 商业 智能 分 析 平 台 的 报告 中 ,连续 第 三 次 蝉联 领先 者 的 殊荣 。Gartner 在 
报告 中 指出 :“Tableau 在 简单 易 用 方面 是 现 有 的 商业 智能 分 析 软 件 中 做 得 最 好 的 。” 德 国 
的 数据 科学 家 Lucie Salwiczek 也 认为 :“ 不 管 是 制作 报表 ,还 是 深入 挖掘 数据 并 进行 分 
析 , 只 需要 Tableau 这 样 一 个 工具 就 足够 了 。” 

Tableau 之 所 以 受到 市 场 的 欢迎 ,原因 在 于 以 下 几 个 方面 的 主要 特性 。 

。 简单 易 用 : Tableau 提供 了 非常 友好 的 可 视 化 界面 。 用 户 不 需要 编写 程序 代码 ， 
只 需 通 过 点 击 鼠 标 和 简单 拖 放 , 就 可 以 迅速 创建 出 精美 直观 和 具有 交互 功能 的 报 
表 、 仪 表盘 .故事 ,帮助 用 户 迅速 发 现 和 展示 数据 中 的 特征 和 规律 。 其 操作 非常 简 
单 ,使 用 者 不 需要 太 多 的 IT 背景 和 统计 知识 。 
强大 的 可 视 化 技术 : 可 视 化 技术 是 Tableau 的 核心 。Tableau 提供 了 一 个 非常 新 
颖 和 简洁 易 用 的 操作 界面 ,使 用 户 在 处 理 规 模 巨 大 的 多 维 数据 时 ,可 以 从 不 同 角 
度 和 设置 看 到 数据 所 呈现 的 规律 ,其 自动 生成 的 图 表 , 既 能 准确 反映 数据 的 特征 ， 
也 丝毫 不 逊色 于 专业 美术 编辑 的 水 平 , 如 图 2-4 所 示 。 图 中 反映 了 2015 年 4 月 
30 日 尼泊尔 地 震 的 多 维 分 析 , 包 括 不 同 区 域 的 地 震级 别 和 震源 深度 .不 同 区 域 的 
伤亡 情况 .外 国人 的 伤亡 情况 .国际 人 道 主 义 救 援 的 情况 等 。Tableau 提供 数据 
可 视 化 技术 ,使 数据 挖掘 变 得 简单 易 用 ,直观 清晰 。 正 是 因为 这 个 特点 ,Tableau 
获得 了 数据 分 析 专 家 的 广泛 认可 ,其 用 户 数量 逐年 递增 。 
可 连接 多 种 数据 源 ,轻松 实现 数据 融合 : 在 日 常 工作 中 ,用 户 想 要 分 析 的 数据 可 
能 分 散在 多 个 数据 源 中 ,有 的 存在 于 文件 中 ,有 的 可 能 保存 在 数据 库 里 面 。 
Tableau 允许 从 多 个 数据 源 访问 数据 ,包括 文本 文件 .Excel 文件 .Oracle 数据 库 、 
SQL 数据 库 和 Hadoop 数据 文件 等 。Tableau 人 允许 用 户 查 看 多 个 数据 源 ,不 仅 能 
:0 


第 2 章 大 数据 应 用 分 析 

















图 2-4 尼泊尔 地 震 情 况 的 多 维度 分 析 


够 在 不 同 数据 源 之 间 来 回 切换 分 析 , 也 能 够 把 多 个 不 同 数据 源 结合 起 来 使 用 。 
。 具有 良好 的 可 扩展 性 : Tableau 提供 了 多 种 应 用 编程 接口 来 扩展 其 数据 分 析 的 能 
力 , 具 体 包括 : 通过 数据 提取 接口 可 以 连接 使 用 多 种 格式 的 数据 源 ;通过 页 面 集 
成 接口 ,把 Tableau 制作 的 报表 和 可 视 化 内 容 垦 入 已 有 的 信息 化 系统 或 者 商务 智 
能 平台 中 ,实现 与 网 页 的 集成 和 交互 ;通过 与 R 的 接口 ,充分 利用 R 语言 强大 的 
统计 分 析 和 数据 挖掘 功能 ,提升 Tableau 在 数据 处 理 和 高 级 分 析 方面 的 能 力 。 
Tableau 的 产品 系列 非常 丰富 ,涵盖 了 从 移动 终端 到 企业 级 服务 器 的 数据 分 析 需 求 ， 
具体 包括 Tableau Desktop、Tableau Server、 Tableau Online、 Tableau Mobile、 Tableau 
Public 和 Tableau Reader。 表 2-1 对 Tableau 的 各 产品 进行 了 简单 介绍 。 


表 2-1 Tableau 系列 产品 的 功能 简介 


产品 名 称 简要 介绍 





Tableau Desktop Tableau 的 桌面 分 析 软 件 

Tableau 的 企业 级 分 析 平 台 , 可 以 发 布 和 共享 不 同 Tableau Desktop 的 分 析 结 
果 , 也 可 以 发 布 和 管理 数据 源 

基于 云 计 算 的 数据 分 析 平 台 , 提 供 Tableau Server 的 所 有 功能 , 免 去 硬件 和 软件 
部 署 与 维护 ,用 户 按照 每 人 每 年 的 方式 付费 使 用 

是 针对 iOS 和 安 卓 平台 的 移动 端 分 析 程 序 。 用 户 可 以 通过 iPad 或 手机 等 移动 
ableau Mobile 设备 来 查看 Tableau Server 或 Tableau Online 上 的 分 析 结 果 ,并 可 以 进行 简单 的 





ableau Server 





ableau Online 











分 析 和 编辑 
Publi 是 一 款 免费 的 服务 器 软件 ,用 户 可 以 用 它 在 互联 网 上 公开 发 布 Tableau Desktop 
”| 创建 的 数据 分 析 结果 














Tableau Reader 用 来 打开 和 阅读 其 他 用 户 用 Tableau Desktop 创建 的 数据 分 析 结 果 
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2.5 大 数据 分 析 示 例 一 一 查处 虚假 出 口 贸易 


本 节 通 过 一 个 示例 ,说 明 传 统 的 查询 分 析 与 可 视 化 数据 分 析 的 主要 区 别 。 
2.5.1 案例 概述 


前 面 几 节 我 们 对 大 数据 分 析 进 行 了 全 面 介 绍 ,考虑 到 本 书 的 侧重 点 是 对 大 数据 的 应 
用 分 析 , 为 了 增强 读者 的 感性 认识 ,我们 举 一 个 案例 ,介绍 大 数据 应 用 分 析 的 实务 流程 。 

在 出 口 贸易 中 和 弄虚作假 ,以 达到 走私 、 骗 取出 口 退税 .追求 不 当 收 益 等 目的 ,是 在 经 济 
活动 中 常见 的 一 种 违法 犯罪 行为 ,也 是 海关 .审计 等 经 济 执法 和 监督 机 关 着 力 打 击 的 一 种 
犯罪 行为 。 但 出 口 贸 易 中 的 违法 犯罪 行为 ,手法 多 样 ,牵涉 的 环节 多 ,涉及 的 数据 量 大 ,类 
型 复杂 ,打击 起 来 难度 也 很 大 。 例 如 ,有 的 犯罪 分 子 为 了 骗取 出 口 退税 ,向 海关 虚报 出 口 
集装箱 ,而 实际 并 不 出 口 ; 有 的 犯罪 分 子 虚 报 出 口 重量 ,以 欺骗 手段 核 销 保税 料 件 ,以 达到 
掩盖 走私 保税 商品 的 目的 。 在 执法 实践 中 ,有 关 监 管 监督 机 关 探 索 运 用 大 数据 分 析 的 方 
法 ,打击 这 类 犯罪 活动 , 收 到 了 显著 成 效 。 

从 进出 口 货物 作业 流程 来 看 ,完整 的 通关 业务 包括 海关 及 以 外 的 诸多 单位 和 部 门 的 
共同 参与 ,如 商检 、 外 汇 管 理 、 税 务 .商务 海事. 空 管 . 港 务 . 码 头 和 银行 等 ,它们 和 海关 一 
起 构成 大 通关 网 络 。 

例如 ,在 查处 虚报 出 口 货物 重量 的 过 程 中 ,执法 人 员 在 对 出 口 流程 的 调查 研究 中 了 解 
到 ,海关 对 企业 出 口 货物 的 重量 监管 信息 来 源 于 企业 申报 ,如 果 仅 靠 这 一 处 数据 ,缺少 印 
证 ,无 法 及 时 发 现 不 法 企业 采取 多 报 少 出 手法 虚假 出 口 ,骗取 出 口 退税 等 情况 。 但 是 在 货 
物 出 口 通 关 流 程 中 ,所 有 出 口 货物 在 运 进出 口 装 货 区 之 前 必须 在 码头 的 进 场 卡 口 处 过 磅 
称 重 ,其 目的 是 合理 收取 费用 、 保 证 装 货 作 业 安 全 和 运输 工具 的 航行 安全 ,因此 码头 过 磅 
重量 这 个 外 部 数据 是 相对 独立 、 客 观 、 可 信 的 ,与 海关 内 部 舱 单 、 报 关 单 信息 中 的 出 口 申报 
重量 数据 存在 关联 关系 。 这 种 关联 关系 在 于 ,扣除 出 口 集装箱 的 自身 箱 重 和 合理 误差 因 
素 后 ,实际 过 磅 重量 应 等 于 舱 单 、 报 关 单 中 的 企业 申报 重量 ,否则 就 可 能 存在 不 法 企业 采 
取 多 报 少 出 的 手法 虚假 出 口 、 骗 取出 口 退税 和 走私 保税 料 件 的 问题 。 执 法 人 员 根 据 这 个 
分 析 思 路 ,一 环 扣 一 环 ,进行 了 步 步 深 入 的 分 析 。 

本 案例 分 别 从 海关 报关 单 表 报关 单 集装箱 表 、 码 头 出 口 货物 过 磅 重量 表 等 多 处 采集 
企业 申报 出 口 货物 的 重量 数据 。 

本 案例 选取 了 其 中 的 部 分 数据 来 演示 分 析 过 程 ,对 虚报 出 口 货物 重量 的 审计 主要 用 
到 三 张 表 : 海关 内 部 的 报关 单 表 、 舱 单 集装箱 表 和 外 部 码头 的 码头 过 磅 表 。 三 张 表 的 结 
构 如 下 : 

报关 单 表 (报关 单 号 ,进出 口 标记 ,进出 口 日 期 ,航次 ,出 口 企 业 代 码 , 出 口 企业 名 称 ， 
提单 号 ,报关 单 申报 重量 ) 

舱 单 集装箱 表 ( 进 出 口 标 记 , 航 次 ,提单 号 , 箱 号 , 船 号 ,集装箱 申报 重量 ) 

码头 过 磅 表 ( 船 名 ,航次 ,提单 号 , 箱 号 ,申报 重量 ,过 磅 重量 ) 

把 围绕 同一 个 出 口 申报 在 不 同 地 方 的 重量 数据 进行 对 比 , 找 出 有 异常 的 数据 。 报 关 
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单 与 集装箱 有 三 种 对 应 情况 : 一 是 一 张 报 关 单 对 应 一 个 集装箱 , 即 一 票 一 箱 ; 二 是 一 张 报 
关 单 上 申报 的 货物 分 装 在 多 个 集装箱 内 ,形成 一 张 报关 单 对 应 多 个 集装箱 的 情况 ， ws 票 
多 箱 ; 三 是 多 个 企业 货物 拼装 在 一 个 集装箱 内 ,形成 多 张 报 关 单 对 应 一 个 集装箱 的 情 

即 拼 箱 。 为 简化 说 明 ,本 案例 以 一 票 一 箱 为 例 ( 即 一 个 集装箱 仅 对 应 一 票 提 单 货物 ， 
括 拼 箱 和 一 票 多 箱 ) 。 本 案例 设 定 差异 下 限 为 2 oo0kg ,如果 超过 该 值 , 则 将 其 作为 重点 
关注 对 象 。 如 果 集 装 箱 表 申 报 重 量 超过 其 过 磅 重量 的 1. 2 倍 , 则 将 其 视 为 虚报 出 口 货 
重量 的 疑点 重点 关注 。 


2.5.2 查询 分 析 


步骤 一 : 从 * 舱 单 集装箱 表 ”( 包 含 全 部 进出 口 集 装 箱 基 本 信息 ) ,提取 进出 口 标记 为 
“出 口 ” 即 “进出 口 标志 ”= 二“E’) 且 是 一 票 一 箱 的 集装箱 信息 ,将 信息 保存 在 “ 主 表 .一 票 
一 箱 出 口 舱 单 表 ” 中 。 


| | 提单 号 
into 主 表 一 票 一 箱 出 口 舱 单 表 NYEKS455024692 
from 舱 单 集装箱 表 NYES455023510 
where 进出 口 标记 = 'E' -= 出 口 NYKS455023545 
group by 船 号 ,航次 ,提单 号 HDFQY-13124 
heaving ou (¥ j= 1 -- 一 票 一 箱 HDFQY-13130 


HDFQY-13133 





“ 主 表 一 票 一 箱 出 口 舱 单 表 ” 包 含 的 部 分 信息 
如 图 2-5 所 示 。 


select * from 主 表 一 票 一 箱 出 口 舱 单 表 








步 又 二 : 根据 已 生成 的 “ 主 表 一 Pg and ees. 提取 相应 
提单 号 所 对 应 的 集装箱 号 集装箱 申报 重 量 ， 将 这 些 信息 保存 在 “ 主 表 一 票 一 箱 出 口 舱 单 
集装箱 表 ” 中 。 


select a. 船 号 ,a. 航 次 ,a. 提 单 号 ,b. 箱 号 ,b. 集 装 箱 申报 重量 
into 主 表 一 票 一 箱 出 口 舱 单 集装箱 表 

from 主 表 一 票 一 箱 出 口 舱 单 表 a join 舱 单 集装箱 表 b 

cn a. 船 号 =b. 船 号 and a. 航 次 =b. 航 次 and a. 提 单 号 =b. 提 单 号 


“ 主 表 一 票 一 箱 出 口 舱 单 集装箱 表 ” 包 含 的 部 分 信息 如 图 2-6 所 示 。 


船 号 _ 航次 提单 号 箱 号 集装箱 申报 重量 
| 1o7s FYCHD-60122 HDNU2183577 9020 
~ 107s NIES455023441 TINU1305553 20000 
107S NIKES455024692 TRLUS5458565 11395 
108S NIKS455023510 TINU1305337 23000 
108S NYES455023545 NYKU9353163 4600 
1095 HDFQY-13124 HDNU2282815 18636 
1095 HDFQY-13130 HDNU2294035 7380 
109S HDFQY-13133 HDNU2231320 11705 


一 票 一 箱 出 口 舱 单 集装箱 表 部 分 数据 
















CC 


。 23 。 


大 数据 应 用 分 析 技 术 与 方法 





select * frcm 主 表 一 票 一 箱 出 口 舱 单 集装箱 表 


步骤 三 : 筛选 多 报 少 出 虚假 出 口 信息 ,筛选 条 件 : 企业 申报 重量 与 实际 过 磅 重量 之 
比 大 于 等 于 120% ,企业 申报 重量 与 实际 过 磅 重量 之 差 大 于 2 000kg。 将 筛选 结果 保存 到 
“分 析 表 .一 票 一 箱 出 口 集装箱 重量 异常 表 ” 中 。 


select pb. 船 名 ,a. 船 号 ,b. 航 次 ,pb. 提 单 号 ,b. 箱 号 as 集装箱 号 ， 
a 集装箱 申报 重量 ,b. 过 磅 重量 * 1000 as 过 磅 重量 ， 
a 集装箱 申报 重量 -b. 过 磅 重量 * 1000 as 多 报 重量 
into 分 析 表 一 票 一 箱 出 口 集装箱 重量 异常 表 
frcm 主 表 一 票 一 箱 出 口 舱 单 集装箱 表 a join 码头 过 磅 表 b 
on a. 航 次 =b. 航 次 and a. 提 单 号 =b. 提 单 号 and a. 箱 号 =b. 箱 号 
where a. 集 装 箱 申报 重量 /b. 过 磅 重量 /1000> 1.2 
and a. 集 装 箱 申报 重量 -b. 过 磅 重量 * 1000> 2000 
order by a. 集 装 箱 申报 重量 -b. 过 磅 重量 * 1000 desc 


“分 析 表 _ 一 票 一 箱 出 口 集 装 箱 重 量 异 常 表 ”包含 的 部 分 信息 如 图 2-7 所 示 。 
select * from 分 析 表 一 票 一 箱 出 口 集装箱 重量 异常 表 





提单 号 集装箱 号 。 ”和 集装箱 申报 重量 ”过磅 重量 多 报 重量 

XMDFWSAA239 CCLU2519682 17200 13000 4200 
CSCL ASIA VRABS IEITSAA023 。 CCLU6370730 17400 14000 3400 
CSCL ASIA VRABS XMLAXSAB302 CCLU2419636 16700 13500 -3200 
XIN QIN HUANG DAO BPBD 3XINDUB2A4024 CCLU2281758 17950 14300 3650 


XIN QIN HUANG DAO BPBD 8XINFXT2A6700 GESU2150149 13339 8700 4639 
XIN QIN HUANG DAO BPBD 3XNMNPKG2A5729 CCLU2682597 9600 6200 3400 
XIN XIA MEN BPBB CI005387 CAXU7000747 36602 28300 8302 
XIN XIA MEN BPBB CI005398 FSCU7679886 25000 19500 5500 





图 2-7 分 析 表 _ 一 票 一 箱 出 口 集装箱 重量 异常 表 部 分 数据 


步骤 四 : 与 “报关 单 表 ”进行 关联 ,查找 出 上 述 重 量 异 常 的 出 口 集装箱 对 应 的 报关 单 
记录 ,并 将 结果 保存 到 “分 析 表 .一 票 一 箱 出 口 集装箱 重量 异常 报关 单 ” 表 中 。 


select pb. 报关 单 号 ,a. 船 名 ,a. 船 号 ,a. 航 次 ,a. 提 单 号 ,b. 出 口 企业 名 称 ， 
.集装箱 号 ,a. 多 报 重量 , a. 过 磅 重量 ,a 集装箱 申报 重量 ,b. 报 关 单 申报 重量 

into 分 析 表 一 票 一 箱 出 口 集装箱 重量 异常 报关 单 

from 分 析 表 一 票 一 箱 出 口 集装箱 重量 异常 表 a join 报关 单 表 b 


on a. 提 单 号 =b. 提 单 号 
order by a. 多 报 重量 desc 


“分 析 表 .一 票 一 箱 出 口 集装箱 重量 异常 报关 单 ” 包 含 的 部 分 信息 如 图 2-8 所 示 。 
select * from 分 析 表 一 票 一 箱 出 口 集装箱 重量 异常 报关 单 
步骤 五 : 数据 分 析 。 筛 选 出 多 报 重量 总 数 最 多 的 5 家 企业 。 


select top 3 with ties 出 口 企业 名 称 ,sum( 多 报 重量 ) 多 报 总 重量 
from 分 析 表 一 票 一 箱 出 口 集装箱 重量 异常 报关 单 
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各 SR 间 呈 角 名 般 S ”航次 提 草 导 出 口 企业 名 称 集 亲 条。 ”多 报 重 量 过 辽 重 量 集 某 箱 申报 重量 报关 单 申报 重量 
1 i1120040114720607 | 0SG ARGOSY J8JY8 424E HOXKE424E655 菜市 7001 对 外 贸易 公司 HRSU2301004 5000 20000 25000 24200 
2 1120040114747923 ”0SG ARGOSY J8JY8 42 生 ”HOXEE424E681 菜 地 1402 有 限 公司 CLOU2517626 6310 13090 = 19400 18830 
3 1120040114954334 0SG ARGOSY J8JY8 425E HOXFE425E665 菜 地 0238 发 展 公司 SCz05658212 = 8000 13500 21500 20425 
4 1120040114954292 0SG ARGOSY J8JY8 427E ”HOXKE427E627 某 地 0238 发 展 公司 HRSU4301683 5900 15100 21000 19950 
5 1120040114773768 0SG ARGOSY J8JY8 427E HOXKE427E631 某 市 0002 有 限 公司 HRSU4303135 2 3677 15400 19077 18258 
6 1120040114777911 0S6 ARGOSY J8JY8 427E HOXKE427E644 某 县 1020 对 外 贸易 公司 HRSU2302551 13870 13130 27000 26000 
7 1120040114956134 ”0SG ARGOSY VRAD3 428E ”HOXKE428E626 ” 菜 地 0238 发 展 公司 GESU4628622 4100 13500 17600 16800 
8 1120040114987606 0SG ARGOSY VRAD3 432E HoXKE432E625 菜 地 6676 有 限 公司 TEXU3470183 -4500 20500 25000 24500 





图 2-8 分 析 表 _ 一 票 一 箱 出 口 集装箱 重量 异常 报关 单 部 分 数据 


group by 出口 企业 名 称 
order by sum( 多 报 重量 ) desc 
查询 结果 如 图 2-9 所 示 。 
在 对 某 一 个 海关 的 数据 分 析 中 ,执法 人 员 通 过 建立 上 述 分 析 模 型 进行 分 析 后 发 现 , 该 
关 区 仅 一 票 一 箱 的 记录 中 ,就 有 1 000 多 家 企业 报 
关 出 口 的 2 000 多 个 集装箱 的 货物 报关 重量 与 码 





头 过 磅 数据 提供 的 出 口 货物 称 重信 息 差 异 较 大 。 dl 250690 
经 过 对 该 模型 运行 结果 的 分 析 , 执 法 人 员 选 取 了 关 人 
区 内 的 3 家 企业 进行 延伸 检查 ,以 明细 出 口 装 箱 单 某 地 5037 发 展 公司 184792 





为 突破 口 ,发 现 均 存 在 高 报 单 耗 ` 多 报 出 口 数量 ` 虚 图 ”9 多 报 重量 总 数 最 多 的 5 家 企业 
假 核 销 保 税 料 件 的 问题 。 相 关 企 业 不 能 提供 有 效 

资料 证 明 多 核 销 保税 料 件 的 合法 去 向 ,涉嫌 走私 。 执 法 人 员 依 法 将 其 移送 当地 海关 缉私 
局 立案 侦查 ,同时 将 其 余 多 报 少 出 企业 的 情况 也 一 并 进行 了 移交 ,最 终 对 1 351 家 企业 进 
行 了 处 理 , 严 厉 打 击 了 违法 犯罪 行为 ,维护 了 正常 的 贸易 秩序 。 


2.5.3 可 视 化 分 析 


本 节 以 Tableau 10. 0 版 本 作为 可 视 化 数据 分 析 平 台 ,介绍 在 这 个 环境 中 分 析 虚 假 出 
口 贸 易 的 过 程 。 
步 又 一 : 连接 数据 源 并 选择 分 析 的 数据 。 
启动 Tableau 软件 ,在 “连接 ” 窗 格 ,选择 “Microsoft SQL Server”, 在 弹出 的 连接 窗口 
的 “服务 器 ? 框 中 输入 包含 分 析 数据 的 SQL Server 服务 器 名 。 
在 下 一 个 窗口 的 数据库? 下拉 列表 框 中 选中 “大 数据 _ 虚 假 贸 易 出 口 ? 数 据 库 , 在 列 出 
的 表 中 首先 分 别 双击 “报关 单 表 ” 和 “码头 过 磅 表 ”, 然 后 双击 “新 自 定义 SQL”, 在 弹出 的 
窗口 中 输入 如 下 页 所 示 的 SQL 语句 ,筛选 出 一 票 一 箱 的 集装箱 数据 (如 图 2-10 所 示 ): 
编辑 自 定义 SQL 和 
select 提单 吕 ， 箱 号 ， 船 吕 ， 航 次 ， 集 装 往 申 报 重 量 from 舱 单 集装箱 表 


where 提单 号 in( 
select 提单 号 from 航 单 集装箱 去 





group by 船 号 ,航次 , 提单 号 
having count(*)=1 ) 


Cas 芭 


























图 2-10 筛选 出 一 票 一 箱 的 出 口 集装箱 数据 
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select 提单 号 , 箱 号 , 船 号 , 航次 , 集装箱 申报 重量 from 舱 单 集装箱 表 
where 提单 号 in( 
select 提单 号 from 舱 单 集装箱 表 
group by 船 号 ,航次 ,提单 号 
having comt (* )=1) 


在 随 之 出 现 的 “联接 ”窗口 中 ,指定 自 定义 SQL 查询 产生 的 数据 与 已 有 表 之 间 的 关联 
关系 。 我 们 这 里 在 “数据 源 ” 下 边 的 下 拉 列 表 框 中 选择 “报关 单 表 ” 中 的 “提单 号 ”, 并 在 “ 自 
定义 SQL 查询 "下边 的 列表 框 中 选中 “提单 号 ”, 如 图 2-11 所 示 。 





右 侧 完全 外 部 


自 定 义 SQL 查询 
提单 号 ( 自 定义 SQL 查询 ) 





图 2-11 指定 自 定义 查询 与 已 有 表 的 关联 关系 


设置 好 数据 之 间 连 接 关 系 后 的 “数据 源 ” 窗 口 如 图 2-12 所 示 。 














@ 报关 单 表 + (大 数据 虚假 .这 ww 


已 六 柳 DMicrosoft SQL Server 





( 报章 表 [ce 码头 过 磅 表 
(local) 
| 


_ 自 定义 SQL 者 询 






















































































吉 | 
浅 回 旦 示 同 显示 |1.000 | 
输入 表 名 称 转 显示 别名 显示 隐藏 字 段 ” 行 中 | 
图 报关 单 表 Abc Abc 岛 Abc Abc 
图 码头 过 磅 表 二 关于 且 关 所 实 二 天 二 天 把 关 e 夹 
图 舱 单 集装箱 表 报关 单 号 进出 口 标记 进出 口 日 期 航次 出 口 企业 代码 
加 1 
梧 新 自 定义 SQL 11200401148296... E 2004/1/8 0:00:00 S016 02948436 中 
日 | 工作 表 1 | 工作 表 2 | 条 H 轿 形状 图 树 形 图 工作 表 4 























图 2-12 设置 好 数据 之 间 连 接 关 系 后 的 “数据 源 ”窗口 


步骤 二 : 构建 计算 字段 。 

在 工作 表 窗 格 中 ,为 便于 分 析 ,创建 如 下 三 个 计算 字段 
(1) 过 磅 重量 (kg) 王 过 磅 重量 * 1 000 

(2) 多 报 重量 = 集装箱 申报 重量 一 过 磅 重量 (kg) 
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(3) 申报 重量 与 过 磅 重量 比 三 集装箱 申报 重量 /过 磅 重量 (kg) 

步骤 三 : 分 析 数 据 。 

在 筛选 器 中 设置 筛选 条 件 : 

(1) 出 口 标记 ==E 

(2) 多 报 重量 之 2000 

(3) 申报 重量 与 过 磅 重量 比 宇 1. 2 

构建 层次 结构 : 船 名 -航次 -提单 号 

拖 放 “ 船 名 -航次 -提单 号 ”到 行 功能 区 ,并 将 “出 口 企业 名 称 ” 维 度 拖 放 到 行 功 能 区 中 
“ 船 号 -航次 -提单 号 ”的 右边 ,将 “多 报 重 量 ” 拖 放 到 列 功能 区 中 。 展 示 的 部 分 分 析 结 果 如 
图 2-13 所 示 。 








月 名 航次 (码头 过 ，。 提单 号 ( 码 拓 过 磅 表 ) 出口 企 
ACHIM 401N KMTC-XMN008753 








| 国 ssoo < 
403N AM403NMB673 1 国 4520 国 
POBUMXB403073904 某 地 | 3.300 
405N AM405NMB101 某 地 5022 有 限 公司 国 国 国 16.490 
AGIOS DIMITRIOS1 0943W LTNV854488006511 。 某 地 0376 有 有 限 公司 国 图 11370 
0952W LTNV854488019737 某 且 j 人 
ANAN BHUM S304 XMNCB4040773 : 
S305 0264016390 
S307 XMNCB4041455 
S308 XMNBKK00622 
XMNCB4041752 
XMNCB4041825 
XMNHCN00600 
ANLAUSTRALIA 021S ANLU865921160 
CXMNBNE2A4115 
OOLU81128030 | 
022S BXMNMEL2A4359 2 
OOLU90469630 ] 
ANL ESPRIT 002S 8XMNSYD2A4367 ] , 
ANL EXPLORER 021S ANLU865921049 某 失 6014 有 有 限 公司 。 国 4.184 
CXMNSYD2A4223 。。 某 地 0491 有 限 公司 。 国 3.387 
022S 8XMNBNE2A4132 。。 某 市 0676 有 限 公司 。 目 2.250 ~ 


ok 20K 40K 60K 80K 100K 120K 140K 160K 180K 

















图 2-13 展示 多 报 重量 的 企业 及 多 报 重 量 


图 2-14 展示 了 按 多 报 重 量 数 降序 排序 的 各 出 口 企 业 名 称 及 其 多 报 重量 合计 。 

图 2-15 用 条 形 图 的 形式 展示 了 不 同 多 报 重 量 数据 段 的 出 口 企 业 个 数 。 这 里 将 多 报 
重量 划分 为 10 个 组 ,对 多 报 重量 少 于 10 000 的 ,以 1 000kg 为 递增 值 划 分 数据 段 ,对 多 报 
重量 超过 10 000 的 ,将 多 报 重量 划分 为 10 001 一 12 000 及 大 于 12 000 两 个 数据 段 。 条 形 
图 上 显示 的 数据 代表 在 这 个 数据 段 内 多 报 重量 的 企业 个 数 。 

Tableau 提供 了 多 种 数据 展示 形式 ,图 2-16 为 图 2-15 的 折线 图 展示 形式 。 折 线 图 有 
助 于 用 户 发 现 数 据 的 变化 趋势 。 

图 2-17 为 图 2-15 的 气泡 图 展示 形式 。 气 泡 图 用 圆圈 的 不 同 大 小 来 揭示 数据 的 


2.5.4 分 析 小 结 


从 前 边 查 询 分 析 和 可 视 化 分 析 的 分 析 过 程 ,可 看 到 传统 的 分 析 方 法 与 大 数据 环境 下 
的 可 视 化 分 析 方 法 有 如 下 几 个 主要 区 别 ( 这 里 仅 以 结构 化 数据 为 例 进 行 对 比 ) 。 
光斑 
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图 2-14 按 多 报 重 量 降序 展示 企业 及 其 多 报 的 总 重量 


和 
SS 
b= 


出 口 企业 名 称 计数 
Dea 
> 


SR AN SN SS & SS 
SP SY 人 RN 2 vw BY Ry 3 os 
HS 9 SN NN S S S 

AS ~ 8 A SS a RY 

图 2-15 用 条 形 图 展示 各 多 报 重量 数据 段 的 出 口 企 业 个 数 


1. 对 分 析 人 员 的 要 求 不 同 


600 584 
500 
459 
310 
251 
7 
200 163 
96 

100 

| | . 
, 回国 图 

S 


。 传统 的 查询 分 析 要 求 分 析 人 员 必 须 具有 扎实 良好 的 数据 库 知识 ,特别 是 要 具有 比 
较 好 的 编写 查询 语句 的 能 力 ,能 够 熟练 构建 大 量 分 析 模 型 ,否则 数据 分 析 将 无 从 


太志 


。 可 视 化 分 析 分 析 则 主要 要 求 分 析 人 员 进 行 拖 拖 放 放 的 简单 操作 , 即 可 构建 数据 的 


分 析 模型 ,编写 查询 语句 、 构 建 分 析 模 型 的 要 求 相 对 简单 。 
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图 2-16 用 折线 图 展示 各 多 报 重 量 数据 段 的 出 口 企业 个 数 


6 001~7 000 
5 001~6 000 


2 000~3 000 
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4001~5 000 





图 2-17 用 气泡 图 展示 各 多 报 重 量 数据 段 的 出 口 企业 个 数 


2. 分 析 结 果 的 展示 不 同 

。 传统 的 查询 分 析 的 展示 结果 只 能 是 二 维 表 的 形式 ,分 析 结 果 不 直观 。 

。 可 视 化 分 析 的 展示 结果 可 以 是 花样 繁多 的 各 种 图 的 形式 ,分 析 结 果 直 观 ,易于 理 
解 .对 比 和 了 解 趋势 。 
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3. 数据 实时 性 不 同 

。 传统 的 查询 分 析 在 产生 查询 结果 后 ,其 结果 就 与 源 数据 没有 关系 了 。 源 数据 发 生 
变化 ,如 果 不 重新 执行 查询 语句 , 则 分 析 结 果 不 会 改变 。 因 此 ,传统 的 查询 分 析 方 
法 的 分 析 结 果 不 能 实时 反映 数据 的 变化 情况 ,其 分 析 结 果 与 实时 数据 有 一 定 的 
滞后 。 

可 视 化 数据 分 析 方法 的 分 析 结 果 是 可 以 随 源 数据 的 变化 而 实时 自动 更 新 的 ,因此 
大 数据 环境 下 的 可 视 化 数据 分 析 展 示 的 可 以 是 实时 数据 的 分 析 结 果 , 这 种 实时 性 
不 需要 用 户 做 任何 工作 ,是 由 可 视 化 分 析 软 件 自动 实现 的 。 
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3.1 方差 分 析 


3.1.1 分 析 方 法 


方差 分 析 (Analysis of Variance,ANOVA) ,又 称 变异 数 分 析 或 下 检验 ,是 英国 统计 
学 家 罗 纳 德 .。 艾 尔 默 . 费 希 尔 (R，A. Fisher) 于 1923 年 发 明 的 统计 方法 。 方 差分 析 研 
究 诸多 因素 中 哪些 因素 对 观测 变量 有 显著 影响 ,在 科学 试验 和 现代 化 工业 质量 控制 中 得 
到 了 广泛 的 应 用 。 

一 个 复杂 的 事物 ,其 中 往往 有 许多 因素 互相 制约 又 互相 依存 。 方 差分 析 的 目的 是 通 
过 数据 分 析 找 出 对 该 事物 有 显著 影响 的 因素 、 各 因素 之 间 的 交互 作用 以 及 显著 影响 因素 
的 最 佳 水 平等 。 常 用 的 方差 分 析 方 法 包括 单 因素 方差 分 析 、 多 因素 方差 分 析 、 多 元 方差 分 
析 、 协 方差 分 析 、 重 复 设 计 方差 分 析 。 单 因素 方差 分 析 是 研究 一 个 因素 的 变化 是 否 对 事物 
产生 了 显著 的 影响 。 在 实际 的 应 用 中 ,一 个 事物 往往 受 多 个 因素 的 影响 。 多 因素 方差 分 
析 是 对 一 个 独立 因素 是 否 受 一 个 或 多 个 其 他 因素 影响 而 进行 的 方差 分 析 。 多 因素 方差 分 
析 不 仅 能 分 析 每 个 因素 对 事物 的 影响 ,还 能 分 析 各 个 因素 间 的 交互 作用 对 事物 是 否 有 显 
著 的 影响 。 例 如 ,应 用 多 因素 方差 对 大 棚 作 物产 量 进行 分 析 时 ,光照 .湿度 .温度 对 作物 的 
产量 都 会 有 很 大 的 影响 ,而 光照 .湿度 .温度 的 交互 作用 对 作物 最 终 的 产量 的 影响 更 显著 。 

本 节 介 绍 的 示例 是 应 用 方差 分 析 法 分 析 职 业 和 性别 对 薪资 的 影响 ,这 属于 多 因素 方 
差分 析 中 的 双 因 素 方 差分 析 。 根 据 双 因素 方差 分 析 中 两 个 因素 是 否 相 互 影响 ,将 其 分 为 
可 重复 和 无 重复 的 双 因 素 分 析 。 无 重复 的 双 因 素 分 析 表 示 两 个 因素 对 结果 的 影响 是 相互 
独立 的 ;可 重复 的 双 因 素 分 析 表 示 两 个 因素 除了 对 结果 单独 影响 外 ,二 者 的 搭配 还 会 对 结 
果 产 生 新 的 影响 。 本 示例 按照 可 重复 的 双 因 素 方差 分 析 进 行 处 理 。 

本 示例 采用 Excel 2013 进行 分 析 , 分 析 时 需要 考虑 两 个 参数 : 相伴 概率 p 与 显著 性 
水 平 x。 对 于 某 个 因数 A, 若 p 二 a 则 因数 A 对 变量 有 显著 性 影响 ,反之 则 影响 不 显著 。 
对 于 因数 A 与 B 的 交互 作用 ,车 p<a 则 因数 A 与 B 的 交互 作用 对 变量 有 显著 性 影响 ， 
反之 则 没有 显著 性 影响 。 


3.1.2 示例 介绍 


某 杂 志 的 记者 想 考 察 职 业 为 财务 管理 .计算 机 程序 员 和 药剂 师 的 男女 雇员 每 周 的 薪 
资 是 否 有 显著 性 的 差异 。 从 每 种 职业 中 分 别 选 取 了 5 名 男性 和 5 名 女性 组 成 样本 ,并 且 
记录 下 样本 中 每 个 人 的 周 薪资 , 周 薪资 的 单位 是 美元 ,样本 数据 如 表 3-1 所 示 。 现 要 分 析 
职业 和 性 别 对 薪资 有 无 显著 性 影响 。 
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表 3-1 薪资 数据 
职 业 性 别 每 周 薪 资 
财务 管理 男 872 
财务 管理 男 859 
财务 管理 男 1 028 
财务 管理 男 yy 
财务 管理 男 1 019 
财务 管理 女 519 
财务 管理 女 702 
财务 管理 溉 805 
财务 管理 女 558 
财务 管理 女 591 
计算 机 程序 员 男 747 
计算 机 程序 员 男 766 
计算 机 程序 员 男 901 
计算 机 程序 员 男 690 
计算 机 程序 员 男 881 
计算 机 程序 员 女 884 
计算 机 程序 员 变 765 
计算 机 程序 员 女 685 
计算 机 程序 员 女 700 
计算 机 程序 员 女 671 
药剂 师 男 1 105 
药剂 师 男 1 144 
药剂 师 男 1 085 
药剂 师 男 903 
药剂 师 男 998 
药剂 师 女 813 
药剂 师 女 985 
药剂 师 女 1 006 
药剂 师 女 1 034 
药剂 师 女 817 
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3.1.3 示例 分 析 


在 Excel 2013 中 ,对 该 数据 进行 如 下 分 析 。 
(1) 将 表 3. 1 中 的 数据 录入 Excel 文件 中 ,该 文件 中 的 数据 样式 如 图 3-1 所 示 。 

















a B & sd) 
El 男 女 
Ea| 872 519 
区 下 859 702 
| 4 | 财务 管理 1028 805 
虑 5 到 | 1117 558 
[6 1019 591 
回国 747 884 
Bs 766 765 
| 9 | 计算 机 程序 员 901 685 
|10 | 690 700 
攻 于 881 671 
2 1105 813 
13 | 1144 985 
| 1d4 | 药剂 师 1085 1006 
15 | 903 103d 
| 16 998 817 
EE 





图 3-1 “方差 分 析 _ 薪 资 表 ”文件 中 的 数据 


(2) 在 包含 该 数据 的 Excel 文件 中 , 单 击 “ 数 据 ”" 功 能 区 中 最 右边 的 “数据 分 析 ”。 在 
弹出 的 “数据 分 析 ” 窗 口中 选择 “方差 分 析 : 可 重复 双 因 素 分 析 ”( 如 图 3-2 所 示 ), 单 击 “ 确 
定 ” 按 钮 ,弹出 如 图 3-3 所 示 的 设置 参数 窗口 。 
数据 分 析 | © Ime 


分 析 工 上 (A) 
方 苦 分 析 : 单 轩 素 方 半分 析 
二 型- 
才 助 t) 























舍利 叶 分 析 
直方 图 























图 3-2 选择 “方差 分 析 : 可 重复 双 因 素 分 析 ” 


(3) 在 如 图 3-2 所 示 的 窗口 配置 相关 系数 。 在 输入 区 域 输入 : Al:C16; 每 一 样本 的 
行 数 中 输入 : 5; 显 著 性 水 平 a(A) 中 输入 : 0.05; 在 “输出 选项 ”中 , 选 “ 输 出 区 域 新 工作 
表 ”, 并 输入 *$ A $18”, 我 们 从 Al8 单元 格 开始 显示 方差 分 析 结 果 。 设 置 好 后 的 情形 如 
图 3-3 所 示 。 

(4) 设置 好 参数 后 单 击 “ 确 定 ” 按 钮 ,表格 中 将 显示 分 析 结 果 。 如 图 3-4 所 示 为 方差 
分 析 结 果 , 如 图 3-5 所 示 为 分 析 的 汇总 结果 。 

(5) 计算 职业 对 薪资 的 显著 性 影 

选中 单元 格 ex eud 3-6 所 示 ) : 


= 正 (E48< 0.05," 职 业 对 薪资 有 差异 "," 职 业 对 薪资 无 差异 ") 
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输入 区 域 0: sas1:scs16 ” 国 
每 一 样本 的 行 数 (R): 5 

al: 0.05 

输出 选 顺 

回 输出 区 域 (D): $A$18 国 

新 工作 表 组 (p): 





日 新 工作 答 (W) 

















图 3-3 配置 相关 系数 


























SS MS F P-value , F crit 
276560 138280 13. 24563 0. 000133 3. 402826 
221880 221880 21. 25355 0. 000112 4. 259677 





2 
115440 本 57720 5. 528912 0. 010595 3. 402826 
4 


250552 24 10439.67 








864432 


图 3-4 方差 分 析 结 
































国史 a | B & bs E 
18 | 方差 分 析 : 可 重复 双 因素 分 析 

19 

_ 20 |SUNMMARY 男 女 总 计 

21 财务 管理 

_22 | 观测 数 5 5 10 
| 23 | 求 和 4895 3175 8070 
24 | 平均 979 635 807 
25 | 方差 12223.5 13677. 5 44382. 67 
26 

27 计算 机 程序 员 

_28 | 观测 数 5 5 10 
_ 29 | 求 和 3985 3705 7690 
.30 | 平均 797 741 769 
| 31 | 方差 8195.5 7685.5 7929. 333 
32 

33 药剂 师 

| 34 | 观测 数 5 5 10 
_35 | 求 和 5235 4655 9890 
36 | 平均 1047 931 989 
JS 到 方差 9338.5 11517.5 13007. 11 
| 38 | 

39 总 计 

40 观测 数 15 15 

41 | 求 和 14115 11535 

| 42 | 平均 941 769 

43 | 方差 20436. 42857 25460. 14286 

4 








图 3-5 汇总 结果 


=IF (F48<0. 05， 职 业 对 薪资 有 差异 “职业 对 薪资 无 差异 ”) 











图 3-6 职业 对 薪资 显著 性 影响 计算 公式 
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输 完 代 码 后 按 回 车 键 , 职 业 对 薪资 的 显著 性 影响 结果 将 显示 在 A55 单元 格 中 。 
(6) 计算 性 别 对 薪资 的 显著 性 影响 。 

选中 单元 格 A56 ,在 公式 栏 中 输入 如 下 代码 : 

= 正 (49< 0.05," 性 别 对 薪资 有 差异 "," 性 别 对 薪资 无 差异 ") 

输 完 代码 后 按 回 车 键 ,职业 对 薪资 的 显著 性 结果 出 现在 A56 单元 格 中 。 

(7) 计算 职业 与 性 别 的 交互 作用 。 

选中 单元 格 A57 ,在 公式 栏 中 输入 如 下 代码 : 

=IF(F50< 0.05," 职业 与 性 别 有 交 互 作用 "," 职 业 与 性 别 无 交互 作用 ") 

输 完 代码 后 按 回 车 键 ,职业 对 薪资 的 显著 性 结果 出 现在 A57 单元 格 中 。 

步骤 (5)、(6)、(7) 的 校 验 结果 如 图 3-7 所 示 。 











me | B | TE WE PE 
46 | 方差 分 析 
4 差异 源 ss dt Ns F P-value , F crit 
48 | 样本 276560 2 138280 13. 24563 0. 000133 3. 402826 
49 列 221880 1 221880 21.25355 0. 000112 4. 259677 
50 交互 115440 2 57720 5.528912 0. 010595 3. 402826 
51 | 内 部 250552 24 10439. 67 


3 | 总 计 864432 29 


54 | 
| 职业 对 薪资 有 差异 

| 性 别 对 薪资 有 差异 

职业 与 性 别 有 交 互 作用 








图 3-7 校 验 结果 


3.1.4 结果 分 析 与 总 结 


图 3-7 反映 的 在 显著 性 水 平 a 二 0.05 的 条 件 下 ,职业 、 性 别 以 及 职业 与 性 别 的 交互 作 
用 是 否 对 每 周 的 薪资 产生 了 显著 性 影响 

对 于 职业 对 薪资 的 影响 ,由 于 p= 二 0.000 133 过 0.05, 所 以 职业 对 薪资 有 显著 性 的 影响 。 

对 于 性 别 对 薪资 的 影响 ,由 于 p 二 0.000 112 过 0.05, 所 以 性 别 对 薪资 有 显著 性 的 影响 。 

对 于 职业 和 人 性别 二 者 的 交互 作用 对 薪资 的 影响 ,由 于 p 二 0.010 595 过 0.05, 所 以 职 
业 和 性 别 的 交互 作用 对 薪资 也 产生 了 显著 性 的 影响 

因此 本 示例 中 ,职业 、 性 别 以 及 职业 与 性 唱 的 交互 作用 对 每 周 的 新 次 都 有 显著 性 的 
影响 。 


3.2 相关 分 析 


3.2.1 分 析 方 法 


事物 之 间 往 往 存 在 某 种 关联 性 ,如 果 这 种 关联 性 可 以 用 函数 表示 , 则 称 它们 之 间 是 一 
种 函数 关系 。 现 实 中 很 多 事物 之 间 虽 然 存 在 某 种 联系 ,但 不 能 应 用 已 知 的 函数 关系 来 表 
示 , 这 种 联系 即 为 相关 关系 。 如 果 这 种 相关 性 只 涉及 两 个 事物 则 为 单 相关 ,如 果 涉 及 三 个 
。 35 。 
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或 者 三 个 以 上 的 事物 则 为 复 相 关 、 多 重 相关 。 
事物 之 间 的 相关 程度 使 用 相关 系数 来 衡量 ,相关 系数 表示 事物 之 间 关 系 的 紧密 程度 
对 于 复 相关 ， 往往 采用 多 重 相关 系数 考察 一 个 变量 与 其 他 变量 之 间 的 相关 程度 ,采用 偏 相 
关系 数 考 察 多 个 变量 中 两 个 变量 的 相关 性 。 

在 有 nn 个 (三 3) 变 量 的 系统 中 , 若 要 考察 第 i 个 变量 与 其 余 n 一 1 个 变量 的 相关 程 


度 , 采 用 多 重 相 关系 数 来 表示 ,计算 公式 为 1- 六 R 是 单 相关 系数 矩阵 对 应 的 行列 


式 ,R; 是 R 的 第 i 行 、 第 i 列 的 代数 余子 式 。R; 的 代数 余子 式 是 在 去 掉 R 中 的 第 i 行 与 第 
i 列 元 素 后 得 到 的 行列 式 。 同 理 求 Rj; 的 代数 余子 式 是 通过 去 掉 R 中 的 第 i 行 与 第 j 列 元 
素 得 到 的 行列 式 。 

多 重 相 关 性 中 考察 一 个 变量 与 男 外 一 个 变量 之 间 的 相关 性 用 偏 相 关系 数 来 表示 。 例 


如 ,考察 变量 i 与 变量 7 之 间 的 偏 相 关 性 ,计算 公式 为 (一 Dd 该 值 的 绝对 值 


越 大 表明 变量 i 和 j 的 偏 相关 程度 越 大 ,二 者 的 关系 越 紧密 ,相互 影响 越 明 显 。 
本 相关 分 析 方 法 将 用 包含 股票 价格 .成 交 金 额 ,收益 率 三 个 变量 的 示例 来 说 明 。 本 示 
例 也 采用 Excel 中 的 数据 分 析 工 具 对 三 个 变量 的 相关 性 进行 分 析 。 


3.2.2 示例 介绍 

某 上 市 公司 8 月 前 15 个 交易 日 的 收益 率 、 股 票 价 格 和 成 交 金 额 样本 数据 如 表 3-2 所 
示 。 现 要 计算 : 

(1) 收益 率 与 股票 价格 和 成 交 金 额 的 多 元 相关 系数 ; 


(2) 收益 率 与 股票 价格 的 偏 相 关系 数 ; 
(3) 收益 率 与 成 交 金 额 的 偏 相 关系 数 。 


表 3-2 8 月 份 股票 交易 样本 数据 






































日 期 股票 价格 /元 成 交 金 额 /元 收益 率 
20080801 9. 28 41 652 766 0.014 923 
20080802 9..23 18 716 130 一 0.002 3 
20080803 9.18 41 314 097 0.023. 15. 
20080804 8. 96 18 393 783 0. 003 234 
20080805 8.95 34 259 522 一 人 007 53 
20080806 8.73 31 981 311 一 和 人 025 和 
20080807 8.65 43 000 708 = 
20080808 8.59 35 314 780 0.011 236 
20080809 8.52 34 774 469 0.039 535 
20080810 8.49 32 888 399 0.002 237 
20080811 8. 42 23 306 213 一 01897 
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续 表 
日 ”期 股票 价格 /元 成 交 金 额 /元 收益 率 
20080812 8.37 38 787 086 一 0.014 79 
20080813 8. 3 30 253 320 0. 020 785 
20080814 8. 26 41 662 276 一 0.002 26 
20080815 8.21 23 703 595 0. 002 245 


3.2.3 示例 分 析 


在 下 xcel 2013 中 ,对 该 数据 进行 如 下 分 析 。 











(1) 将 如 表 3-2 所 示 的 数据 录入 Excel 文件 中 ,该 文件 中 的 数据 样式 如 图 3-8 所 示 。 





4 | B C | 
站 (元 ) ， 成交 金 额 (元 ) 收益 率 
9.28 41652766 0. 014923 
9.23 18716130 -0. 0023 
9.18 41314097 -0. 02315 
8.96 18393783 0. 003234 
8.95 34259522 -0. 00753 
8.73 31981311 -0. 02597 
8.65 43000708 -0.01111 
8. 59 35314780 0. 011236 
8. 52 34774469 0. 039535 
8. 49 32888399 0. 002237 
8. 42 23306213 -0. 01897 
8.37 38787086 -0. 01479 
8.31 30253320 0. 020785 
8. 26 41662276 -0. 00226 
8.21 23703595 0. 002245 





图 3-8 ”股票 交易 数据 


(1) 在 该 文件 中 , 单 击 “ 数 据 ”, 然 





后 单 击 “ 数 据 ” 功 能 区 最 右边 的 “数据 分 析 ” 图 标 。 在 
弹出 的 “数据 分 析 ” 窗 口 中 选择 “相关 系数 "(如 图 3-9 所 示 ), 单 击 “ 确 定 ” 按 钮 ,弹出 如 
图 3-10 所 示 的 设置 参数 窗口 。 





F 


数据 分 析 





分 析 工 具 (A) 








方差 分 析 ; 无 重复 双 因 素 分 析 
































图 3-9 





选择 “相关 系数 ” 


(2) 在 如 图 3-10 所 示 的 “相关 系数 ”窗口 中 ,在 “输入 区 域 " 输 入 : Al1: C16; 在 “分 组 


方式 "中选 中“ 逐 列 ”; 勾 选 “标志 位 于 第 一 


边 的 文本 框 中 输入 : A18。 


行 ”; 在 “输出 选项 ”部 分 选中 “输出 区 域 ”, 并 在 后 
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相关 系数 
输入 qo 
输入 区 域 0: mos 图 
分 3 方式 @ hlO 
辐 标志 位 于 第 一 行 由 
边 出 选 大 
加 给 出 区 域 (0): All 国 
日 新 工作 表 组 (p): 
日 新 工作 簿 QW 

















| === = 


图 3-10 配置 相关 系数 





(3) 单 击 “ 确 定 ” 按 钮 ,从 单元 格 A18 开始 将 显示 如 图 3-11 所 示 的 和 矩阵 信息 。 


18 股票 价格 〈 元 ) 成 交 人 金额 〈 元 ) 
19 股票 价格 〈 元 ) 1 
20 成交 金额 〈 元 ) -0. 01476237 

| -0.135232122 








图 3-11 单 相 关系 数 矩 阵 


(4) 根据 对 称 性 填充 图 3-11 中 矩阵 上 方 的 空 单 元 格 ,结果 如 图 3-12 所 示 。 


股票 价格 元 ) 成 交 金额 (元 ) 
19 | 股票 价格 元) 1 -0. 01476237| -0. 135232122 


20 成 交 金 额 元) -0. 01476237 1 -0.038651537 
21 | 收益 率 -0. 135232122 -0. 038651537 1 





图 3-12 和 矩阵 填充 结果 


(5) 列 出 尺 的 行列 式 以 及 Ru 、Rzz Ra Rs Ra 的 代数 余子 式 , 如 图 3-13 所 示 。 











[4 二 Lm | £ | D 
| 24 | 单 相关 系数 矩阵 
| 25 | t -0. 01476237 -0. 135232122 
| 26 | -0.01476237 1 -0. 038651537 
|27 | -0.135232122 -0. 038651537 L 
28 
| 29 | Ri 
| 30 | 1 -0. 038651537 
| 31 | -0.038651537 
| 32 | 
[33 Ra 
| 34 | 1 -0. 135232122 
| 35 | -0.135232122 1 
| 56 | 
| 37 | Ras 
| 38 | 1 -0. 01476237 
|39 | -0.01476237 i 
| 40 | 
[1 Rs 
|42| -0.01476237 LT 
| 43 | -0.135232122 -0. 038651537 
4 
| 45 | Ras 
| 46 | 1 -0. 01476237 
| 47 | -0.135232122 -0. 038651537 

















图 3-13 各 个 矩阵 数据 
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(6) 计算 R 的 行列 式 的 值 。 
选中 单元 格 B49 ,然后 在 公式 栏 中 输入 如 下 公式 (如 图 3-14 所 示 ) : 


=MDETERM (A25:C27) 


B49 bd =MDETERN (A25:C27) 
A 外 B C 


图 3-14 计算 R 的 公式 




















输 完 代码 后 按 回 车 键 ,计算 结果 如 图 3-15 所 示 。 

(7) 计算 Ri 的 行列 式 的 值 。 

选中 单元 格 B50, 在 公式 栏 中 输入 如 下 公式 并 按 回 车 键 ,计算 结果 如 图 3-13 所 示 。 

= MDETERM(A30:B31) 

输 完 代 码 后 按 回 车 键 ,计算 结果 如 图 3-15 所 示 。 

(8) 计算 Rs 的 行列 式 的 值 。 

选中 单元 格 B51, 并 在 公式 栏 中 输入 如 下 公式 ,并 按 回 车 键 ,计算 结果 如 图 3-15 
所 示 。 


= MDETERM (A34:B35) 


(9) 计算 Rs 的 行列 式 的 值 。 
选中 单元 格 B52, 在 公式 栏 中 输入 如 下 公式 ,并 按 回 车 键 ,计算 结果 如 图 3-15 所 示 。 


= MDETERM (A38:B39) 


(10) 计算 Ri 的 行列 式 的 值 。 
选中 单元 格 B53, 在 公式 栏 中 输入 如 下 公式 ,并 按 回 车 键 ,计算 结果 如 图 3-15 所 示 。 


= MDETERM(A42:B43) 


(11) 计算 Rs 的 行列 式 的 值 。 
选中 单元 格 B54 ,在 公式 栏 中 输入 如 下 公式 ,并 按 回 车 键 ,计算 结果 如 图 3-15 所 示 。 


= MDETERM (A46:BA7) 











a | B | & 
及 0. 979846081 

Ra 0. 998506059 

Ra 0. 981712273 

Ras 0. 999782072 

Rn 0.13580271 

Ras -0. 040647883 














图 3-15 RR \ 下 2 \ 下 :3 ~R1s ~Rzs 的 值 


R 


(12) 计算 收益 率 与 股票 价格 和 成 交 金额 的 多 元 相关 系数 : lTR 
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选中 单元 格 B56 ,在 公式 栏 中 输入 如 下 公式 ,并 按 回 车 键 , 计 算 结 果 如 图 3-16 所 示 。 


= SORT (1- B49/B52) 
和 本 及 
(13) 计算 收益 率 与 股票 关系 效 二 三 前 945 三 一 一 
了 全 股票 价格 的 偏 相关 系数 计 


选中 单元 格 B57 ,在 公式 栏 中 输入 如 下 公式 ,并 按 回 车 键 ,计算 结果 如 图 3-16 所 示 。 
= CD^G+ 3) * B53/SQRT (B50* B52) 


» 站 效 后 x 人 了 证 一 二 2 二 3 Rs 
(14) 计算 收益 率 与 成 交 人 金额 的 偏 相关 系数 : (一 1) i 


选中 单元 格 B58, 在 公式 栏 中 输入 如 下 公式 ,并 按 回 车 键 ,计算 结果 如 图 3-16 所 示 。 


= (~- 1)^(2+ 3) * B54/SQRT (B51 * B52) 





ma ha | B 
多 重 相关 系数 0.141210259 


偏 相关 系数 1 0.135919076 
偏 相关 系数 2 0. 04102921 


图 3-16 多 重 相 关 和 偏 相 关系 数值 





3.2.4 结果 分 析 与 总 结 


图 3-16 反映 的 是 收益 率 、 股 票 价格 和 成 交 金 额 三 者 之 间 的 相关 性 。 单 元 格 B56 中 反 
映 的 是 收益 率 与 股票 价格 和 成 交 金 额 的 多 重 相 关系 数 , 该 值 越 大 表明 收益 率 与 股票 价格 
和 成 交 金额 的 线性 相关 程度 越 密切 。 单 元 格 B57 与 B58 分 别 是 收益 率 与 股票 价格 ,收益 
率 与 成 交 金额 的 偏 相 关系 数值 。 偏 相关 系数 用 于 多 要 素 组 成 的 系统 中 ,单独 考察 一 个 要 
素 对 其 他 要 素 的 影响 。 其 值 取 值 范围 介 于 -1 和 1 之 间 , 绝 对 值 越 大 表明 其 偏 相关 的 程度 
越 大 。 本 示例 中 , 相 较 于 成 交 金 额 , 股 票 价 格 对 收益 率 的 影响 更 大 。 


3.3 回归 分 析 


3.3.1 分 析 方 法 


回归 分 析 是 一 种 统计 分 析 方 法 ,用 于 确定 变量 之 间 的 函数 关系 ,主要 用 于 数据 的 预 
测 。 回 归 分 析 方法 的 思想 是 根据 若干 个 变量 的 一 系列 的 实际 观测 值 , 推 断 出 这 些 变量 之 
间 存 在 的 函数 关系 ,然后 再 利用 所 获得 的 函数 关系 预测 某 个 变量 的 取 值 。 如 果 回 归 分 析 
只 涉及 两 个 变量 上 且 二 者 的 关系 可 以 表示 为 线性 函数 时 则 称 之 为 一 元 线性 回归 分 析 ; 如 果 
回归 分 析 中 包含 三 个 或 三 个 以 上 的 变量 且 变 量 之 间 可 以 表示 成 线性 函数 则 称 之 为 多 重 线 
性 回归 分 析 。 

进行 回归 分 析 时 ,需要 使 用 残 差 来 衡量 回归 分 析 结 果 的 优 劣 。 残 差 是 预测 值 和 实际 
观测 值 之 间 的 差额 。 当 我 们 获得 了 一 个 回归 分 析 的 函数 关系 时 ,对 于 给 定 的 自 变 量 ,可 以 
计算 出 因 变 量 的 值 。 但 是 这 种 函数 只 是 尝试 去 禹 近 真 实 的 情况 ,由 于 随机 误差 等 因素 , 根 
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据 函 数 关 系 计 算得 到 的 因 变 量 的 值 ( 又 称 预测 值 ) 与 实际 观测 值 有 一 定 的 差距 。 残 差 就 是 
用 来 衡量 其 大 小 的 指标 。 残 差 越 小 ,说 明 预 测 值 和 实际 观测 值 越 接近 ,回归 分 析 的 结果 也 
越 好 。 

本 节 给 出 的 示例 是 考察 公司 收入 与 电视 和 报纸 的 广告 费用 间 的 关系 ,属于 多 重 线性 
回归 分 析 的 范畴 。 


3.3.2 示例 介绍 


某 媒 体 公司 的 管理 者 认为 公司 每 周 的 收入 与 广告 费用 是 密切 相关 的 ,他 们 想 对 每 周 
的 总 收入 做 出 预测 和 评估 。 这 家 公司 收集 获得 了 8 周 的 历史 数据 组 成 样本 数据 ,如 表 3-3 
所 示 。 
































表 3-3 ”收入 与 电视 广告 费 、 报 纸 广 告 费 关系 数据 单位 : 千 元 
每 周 的 总 收入 电视 广告 费用 报纸 广告 费用 
96 5.0 1.5 
90 2.0 2.0 
95 4.0 bn 
92 2.5 2.5 
95 3.0 人 
94 3.5 二 
94 2.5 4.2 
94 3.0 2.5 
现 要 进行 如 下 两 项 工作 : 


(1) 试 通过 表 中 的 数据 给 出 广告 费用 与 收入 的 回归 方程 
(2) 在 显著 水 平 为 0.05 时 ,对 方程 进行 总 体 显著 性 和 回归 系数 的 显著 性 检验 。 


3.3.3 示例 分 析 


在 Excel 2013 中 ,对 该 数据 进行 如 下 分 析 。 
(1) 将 如 表 3-3 所 示 的 数据 录入 Excel 文件 中 ,该 文件 中 的 数据 样式 如 图 3-17 所 示 。 






































A | B | C | D 
1 | 样本 数 “每 周 的 总 收入 / 千 元 电视 广告 费用 / 千 元 报纸 广告 费用 / 千 元 
1 96 5 1.5 
8 2 90 2 2 
4 3 95 4 1.5 
5 4 92 2.5 2.5 
6 5 95 3 3.5 
6 94 3.5 2.3 
8 7 94 2.5 4.2 
9 8 94 3 2.5 














图 3-17 收入 与 电视 、 报 纸 广 告 费 用 数据 


,EE 
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(2) 在 该 文件 的 “数据 ”功能 区 中 , 单 击 右边 的 “数据 分 析 ” 图 标 。 在 弹出 的 “数据 分 
析 ” 窗 口中 选择 “回归 ”( 如 图 3-18 所 示 ), 单 击 “ 确 定 ” 按 钮 ,弹出 如 图 3-19 所 示 的 设置 参 


数 窗口 。 


数据 分 析 








分 析 工具 (A) 





直方 图 
移动 平均 


t- 检 验 : 双 











排 位 与 百分比 排 位 
回归 


抽样 
tt 检验: 平均 值 的 成 对 二 样本 分 析 
: 双 样本 等 方差 假设 


el 




















(3) 在 弹出 的 “回归 ” 框 中 配置 相关 系数 。 在 Y 值 输入 区 域 输入 : B1:B9;X 值 输入 区 
域 输入 : C1: D9; 勾 选 “ 标 志 ” 和 “置信 和 度 ”“ 置 信和 度 ”中 输入 95; 在 “输出 区 域 ”的 文本 框 中 
输入 : A12; 在 “ 残 差 ” 部 分 色 选 “ 残 差 “ 残 差 图 ”标准 残 差 ” 和 “线性 拟 合 图 ”。 配 置 好 相 


关系 数 的 回归 窗口 如 图 3-19 所 示 。 


输入 
Y 值 输入 区 域 中 ): 


X 值 输入 区 域 0); 


加 标志 必 
回 置信 和 度 色 ) 


输出 选项 
加 输出 区 域 @): 
〇 新 工作 表 组 E): 
〇 新 工作 薄 四 
残 差 
残 差 B) 
回 标准 残 差 T) 





正 态 分 布 
口 正 态 概率 图 如 


图 3-18 选择“ 回归” 


$B$1 $B$9 


$C$1: $0$9 国 











95 


常数 为 零 了 ) 
多 








$A$12 四 | 














周 残 差 图 四 ) 
钱 性 拟 合 图 CI) 




















图 3-19 配置 相关 系数 


(4) 单 击 “ 确 定 ” 按 钮 后 ,回归 分 析 结 果 便 出 现在 A12 开始 的 下 方 单元 格 中 。 回 归 汇 
总 分 析 结 果 如 图 3-20 所 示 , 残 差 输出 如 图 3-21 所 示 ,电视 广告 费用 残 差 图 与 线性 拟 合 图 


如 图 3-22 所 示 ,报纸 广告 费用 残 差 图 与 线性 拟 合 图 如 图 3-23 所 示 。 


3.3.4 结果 分 析 与 总 结 


根据 图 3-20 中 数据 表 “Coefficients” 列 的 相关 数据 ,可 以 得 到 回归 方程 为 Y==83. 28 十 
2. 28Xi 十 1.27X; ,其 中 Y 表示 收入 ,Xi 表示 电视 广告 费用 ,Xs 表示 报纸 广告 费用 。 
当 回 归 的 显著 性 水 平 为 0.05 时 ,方程 总 体 拟 合 优 度 为 0. 90, 且 通过 下 检验 ,因此 回 


归 方 程 总 体 显著 。 
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SUNMMARY OUTPUT 











归 统 计 

NMultiple R 0. 963955986 
R Square 0. 929211142 
Adiusted R Square 0. 900895599 
| 18 | 标准 误差 0. 600852041 
8 








SS 


NS F znificance F 

















Coefficients 


23. 69488412 
1. 805115875 
25.5 


标准 误差 


11. 84744206 32. 81629 0. 001333 
0. 361023175 


t Stat P-value Lower 95%Upper 95% 下 限 95. 0 上 限 95. 0 





Intercept 83. 28284245 
电视 广告 费用 / 千 元 2. 283844253 
纸 广 告 费用 /于 元 1.274961598, 





1. 442065966 
0. 281907565 
0. 288418209 


图 3-20 回归 汇 


57.75244991 2. 94E-08 79. 57589 86. 98979 79. 57589 86. 98979 
8. 101393999 0. 000465 1. 559178 3. 008511 1. 559178 3.008511 
4. 420530872 0. 006889 0. 533559 2. 016364 0.533559 2. 01636d 


总 分 析 结果 









































a B Cc D 
34 |RESIDUAL OUTPUT 
35 
36 观测 值 测 每 周 的 总 收入 / 千 残 差 标准 残 差 
37 . 96. 61450611 -0. 614506111 -1. 210103963 
38 2 90. 40045415 -0. 400454151 -0. 788586389 
39 3 94. 33066186 0. 669338142 1. 318080852 
40 4 92.17985708 -0.179857076 -0. 354179977 
41 5 94. 5967408 0. 4032592 0. 794110176 
42 6 94. 20870901 -0. 20870901 -0. 410996075 
43 ke 94. 34729179 -0. 347291792 -0. 683897469 
44 8 93. 3217792 0. 678220797 1. 335572845 
图 3-21 残 差 输出 结果 
残 差 图 线性 拟 合 图 
100 
卡 日 
2 中 95 Name 。 每 周 的 总 收入 /二 元 
灿 | sg 4 心 90 Dd 
隐 ] 有 | 入 上 5 ，“ 目 预测 每 周 的 总 收入 / 
0 1 2 3 4 9 6 下 0 2 4 6 于 元 
2 
电视 广告 费用 / 干 元 a 电视 广告 物 用 / 千 元 
图 3-22 ”电视 广告 费用 残 差 图 与 线性 拟 合 图 
残 差 图 线性 拟 合 图 
100 
轩 
2 中 95 时 中 4 每 周 的 总 收入 /二 元 
灿 | * 人 生 3” 昌 
起 。 人 中 和 as] 目 预 测 | 每 周 的 总 收入 / 
0| a 2 3 4 5 如 0 2 4 6 二 元 
报纸 广告 费用 /二 元 芝 报纸 广告 费用 /二 元 

















图 3-23 报纸 广告 费用 残 差 图 与 线性 拟 合 图 


Xi 和 X* 系 数 的 检验 值 P 值 小 于 0.05, 因 此 本 示例 中 的 电视 广告 费用 和 报纸 广告 费 


用 对 收入 均 有 显著 性 的 影响 。 
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3.4 时 间 序 列 分 析 


时 间 序 列 是 指 将 某 一 个 变量 在 不 同时 间 上 的 各 个 数据 按时 间 先 后 顺序 排列 而 形成 的 
序列 。 时 间 序 列 分 析 的 主要 目的 是 根据 已 有 的 历史 数据 对 未 来 进行 预测 。 时 间 序 列 分 析 
基于 随机 过 程 理论 和 数理 统计 学 方法 ,研究 数据 随时 间 发 展 变化 的 规律 性 。 它 包括 一 般 
统计 分 析 ( 如 自 相关 分 析 、 谱 分 析 等 ) ,统计 模型 的 建立 与 推断 ,以 及 关于 时 间 序 列 的 最 优 
预测 .控制 与 滤波 等 内 容 。 经 典 的 统计 分 析 通 常 假 定数 据 序 列 具 有 独立 性 ,而 时 间 序 列 分 
析 则 侧重 研究 数据 序列 与 时 间 序 列 之 间 的 依赖 关系 。 

时 间 序 列 由 于 受到 各 种 偶然 或 随机 因素 的 影响 ,具有 动态 随机 变化 的 性 质 。 从 表面 
看 杂乱 无 章 、 毫 无 规律 ,实际 上 却 具有 一 定 的 统计 规律 性 。 因 此 ,要 想 对 所 研究 的 时 间 序 
列 建立 适当 的 模型 ,首先 必须 了 解 时 间 序 列 的 基本 统计 特性 ,从 而 确保 时 间 序 列 模型 的 可 
靠 性 ,并 满足 一 定 的 精度 。 一 般 可 以 从 时 间 序 列 的 平稳 性 、 纯 随机 性 和 季节 性 三 个 方面 
考虑 。 


3.4.1 平稳 性 检验 


平稳 性 是 某 些 时 间 序 列 具有 的 一 种 统计 特征 。 只 有 对 于 平稳 的 序列 才 可 以 运用 已 知 
的 时 间 序 列 模型 对 其 进行 分 析 预 测 ,因此 对 数据 进行 平稳 性 检验 是 时 间 序 列 分 析 法 的 关 

对 序列 的 平稳 性 有 两 种 检验 方法 : 一 种 是 根据 时 间 序列 图 显示 的 特征 做 出 判断 的 图 
检验 方法 ;一 种 是 构造 检验 统计 量 进行 假设 检验 的 方法 。 通 常 我 们 都 选用 图 检验 方法 来 
检验 序列 平稳 性 , 即 以 时 间 轴 为 横 轴 ,变量 为 纵 轴 构成 时 间 序 列 图 。 


3.4.2 纯 随机 性 检验 


如 果 序 列 值 彼此 之 间 没 有 任何 相关 性 , 则 意味 着 该 序列 是 一 个 没有 记忆 的 序列 ,过 去 
的 行为 对 将 来 的 发 展 没有 丝毫 影响 ,这 种 序列 我 们 称 之 为 纯 随 机 序列 。 纯 随机 性 检验 又 
称 白 噪声 检验 ,是 专门 用 来 检验 序列 是 否 为 纯 随机 序列 的 一 种 方法 。 

判断 一 个 时 间 序 列 是 否 为 纯 随机 序列 最 简单 .最 直观 的 方法 是 利用 自 相 关 函 数 
(ACF) 图 和 偏 自 相 关 函 数 (PACF) 图 进行 分 析 。 自 相关 函数 (ACF) 描 述 时 间 序 列 观测 值 
与 其 过 去 的 观测 值 之 间 的 线性 相关 。 偏 自 相关 函数 (PACF) 描 述 在 给 定 中 间 观 测 值 的 条 
件 下 时 间 序 列 观测 值 与 其 过 去 的 观测 值 之 间 的 线性 相关 。 在 统计 分 析 软 件 SPSS 中 ， 
ACF 函数 图 和 PACF 函数 图 更 加 直观 地 给 出 了 显著 性 水 平 a==0.05 时 的 随机 区 间 , 若 
ACF 系数 和 PACF 系数 落 入 随机 区 间 内 则 表示 该 观测 值 与 过 去 的 观测 值 无 关 , 若 几乎 所 
有 ACF 系数 与 PACF 系数 都 落 入 随机 区 间 , 则 可 认为 该 序列 是 纯 随 机 的 。 


3.4.3 适用 性 检测 


用 不 同 的 模型 分 析 数 据 时 ,需要 一 些 参数 来 判断 某 个 模型 对 这 组 数据 分 析 的 适用 性 ， 
其 中 Akaike 最 小 信息 准则 (AIC) 和 Schwarz-Bayes 准则 (BIC) 是 常用 的 两 个 参数 。AIC 
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和 BIC 共同 的 特点 是 在 残 差 最 小 的 情况 下 ,用 尽 可 能 少 的 参数 建立 模型 。 在 比较 两 个 或 
多 个 模型 时 ,一般 选用 具有 最 小 AIC 值 和 BIC 值 的 模型 。 

常用 的 时 间 序 列 分 析 模 型 有 指数 平滑 模型 .差分 运算 模型 和 ARIMA 模型 ,下 面 对 这 
些 模型 进行 简单 介绍 。 

1. 指数 平滑 模型 

指数 平滑 模型 是 布朗 (Robert G. Brown) 提 出 的 。 布 朗 认 为 时 间 序 列 的 态势 具有 稳 
定性 和 规则 性 ,所 以 时 间 序 列 可 被 合理 地 顺势 推 延 ;最 近 的 过 去 趋势 在 某 种 程度 上 会 持续 
到 最 近 的 未 来 ,所 以 可 以 把 最 近 的 数据 设置 较 大 的 权重 。 指 数 平滑 法 通过 计算 指数 平滑 
值 ,配合 一 定 的 时 间 序 列 预测 模型 对 事物 的 未 来 进行 预测 。 其 原理 是 任 一 期 的 指数 平滑 
值 都 是 本 期 实际 观测 值 与 前 一 期 指数 平滑 值 的 加 权 平 均 。 

2. 差分 运算 模型 

差分 运算 模型 是 一 种 非常 简便 .有效 的 确定 性 信息 提取 方法 。Cramer 分 解 定理 在 理 
论 上 保证 了 适当 阶 数 的 差分 一 定 可 以 充分 提取 确定 性 信息 。 通 常 使 用 差分 运算 对 数据 进 
行 平稳 化 处 理 。 

3. ARIMA 模型 

时 间 序 列 自 回归 模型 AR(p) 是 一 种 从 回归 分 析 中 的 线性 回归 发 展 而 来 的 分 析 时 间 
序列 的 方法 , 它 的 工作 思想 是 用 以 前 p 个 时 间 点 的 值 预测 未 来 时 间 点 的 值 ,p 称 为 自 回 归 
项 ;滑动 平均 模型 MA(g) 是 另 一 种 通过 历史 时 间 点 的 值 预测 未 来 时 间 点 的 值 的 方法 , 它 
的 工作 思想 是 用 过 去 g 个 时 间 点 的 随机 干扰 或 预测 误差 的 线性 组 合 来 表达 当前 预测 值 。 

如 果 将 自 回 归 模 型 AR(p) 和 滑动 平均 模型 MA(g) 结 合 , 则 可 得 到 一 个 既 包 含 自 回 
归 又 包含 滑动 平均 的 更 精确 的 时 间 序 列 分 析 方 法 一 一 自 回归 滑动 平均 模型 ARMA(p,g)。 
在 实际 中 ,大 多 数 时 间 序 列 都 是 非 平稳 的 (时 间 序 列 的 平稳 性 的 直观 含义 是 指 时 间 序 列 没 
有 明显 的 变化 趋势 以 及 没有 周期 性 的 有 规律 的 变动 ) ,我 们 不 能 直接 应 用 自 回 归 模 型 
AR(p) ,滑动 平均 模型 MA(g) 以 及 自 回归 滑动 平均 模型 ARMA(p,g) 通 常 需要 采用 差分 
的 方法 来 处 理 非 平稳 的 时 间 序 列 ,这 样 在 自 回 归 滑 动 平均 模型 ARMA(p,g) 基 础 上 增加 
差分 处 理 得 到 的 模型 就 是 自 回 归 积 分 滑动 平均 模型 ARIMA(p,d,q),d 为 时 间 序 列 成 为 
平稳 时 所 做 的 差分 次 数 。 

自 回 归 积 分 滑动 平均 模型 ARIMA 是 由 博克 思 (Box) 和 和 乌金 斯 (Jenkins) 于 20 世纪 
70 年 代 初 提出 的 著名 时 间 序 列 预测 方法 ,所 以 又 称 为 Box-Jenkins 模型 。 其 原理 是 将 预 
测 对 象 随时 间 推 移 而 形成 的 数据 序列 视 为 一 个 随机 序列 ,用 一 定 的 数学 模型 来 近似 描述 
这 个 序列 ,然后 使 用 这 个 模型 根据 时 间 序 列 的 历史 值 去 预测 未 来 值 。 


3.5 聚 类 分 析 


案 类 分 析 属 于 探索 性 的 数据 分 析 方 法 。 通 常 ,利用 聚 类 分 析 可 以 将 看 似 无 序 的 对 象 
进行 分 组 ,. 归 类 ,以 达到 更 好 地 理解 研究 对 象 的 目的 。 聚 类 结果 要 求 组 内 对 象 相似 性 较 
高 ,组 间 对 象 相似 性 较 低 。 在 用 户 研究 中 ,很 多 问题 都 可 以 借助 聚 类 分 析 来 解决 ,如 网 站 
的 信息 分 类 问题 、 网 页 的 点 击 行为 关联 性 问题 以 及 用 户 分 类 问题 等 。 其 中 ,用 户 分 类 是 最 
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常见 的 情况 。 

聚 类 分 析 是 根据 数据 的 数值 特征 对 数据 进行 分 类 的 一 种 分 析 方 法 。 与 一 般 的 分 类 算 
法 不 同 , 聚 类 分 析 并 不 能 确定 数据 应 该 分 为 几 类 。 聚 类 分 析 的 目的 是 将 众多 的 个 体 先 聚 
集成 比较 好 处 理 的 几 个 类 别 或 子 集 , 然 后 再 利用 判别 分 析 进 一 步 研 究 各 个 类 别 之 间 的 
差异 。 

对 一 组 数据 , 既 可 以 对 变量 (指标 ) 进 行 聚 类 分 析 ,也 可 以 对 观测 值 进行 聚 类 分 析 。 分 
析 的 时 候 , 不 一 定 要 事先 假定 有 多 少 类 ,也 可 以 完全 根据 数据 自身 的 规律 来 分 类 。 一 般 将 
变量 的 聚 类 分 析 称 为 尺 型 聚 类 ,而 将 观测 值 聚 类 称 为 Q 型 聚 类 。 

聚 类 分 析 中 ,比较 重要 的 是 两 个 距离 的 概念 ,按照 远近 程度 来 聚 类 是 聚 类 分 析 法 的 要 
义 ,那么 这 个 远近 究竟 指 什么 呢 ? 这 里 的 距离 一 方面 是 指点 与 点 之 间 的 距离 , 另 一 方面 是 
指 类 和 类 之 间 的 距离 。 点 间距 离 本 身 有 多 个 定义 方式 也 即 多 种 运算 方法 ,因此 只 要 选择 
一 种 算法 即 可 。 由 一 个 点 组 成 的 类 是 最 基本 的 类 ,如 果 每 一 类 都 由 一 个 点 组 成 ,那么 点 间 
距离 就 是 类 间距 离 。 但 如 果 一 个 类 包含 不 止 一 个 点 ,那么 就 需要 确定 类 间距 离 。 类 间距 
离 是 基于 点 间距 离 定 义 的 ,如 两 类 之 间 最 近 点 之 间 的 距离 可 以 作为 两 类 间距 离 , 也 可 以 选 
用 最 远 点 的 距离 ,还 可 以 选择 各 类 之 间 的 中 心 距离 。 

聚 类 分 析 有 多 种 方法 ,不 同 的 系统 提供 了 不 同 的 聚 类 分 析 法 。SPSS 提供 了 KK- 平均 
值 聚 类 两 步 聚 类 和 系统 聚 类 三 种 聚 类 方法 ,但 它们 的 应 用 范围 和 优 劣 势 各 有 不 同 。 

K- 平 均值 聚 类 (KCA) 又 称快 速 聚 类 ,是 进行 人 群 细 分 时 最 常 使 用 的 方法 。 该 方法 是 
单纯 应 用 统计 技术 根据 若干 指定 变量 (应 限制 为 尺度 变量 ) 将 众多 个 案 分 到 固定 的 类 别 中 
去 。 这 种 方法 用 于 大 量 ( 数 千 ) 个 案 的 类 别 划 分 时 非常 有 效 。 但 该 方法 可 以 选择 的 内 容 较 
少 ,最 重要 的 是 选择 聚 类 的 数量 .和 迭代 的 次 数 以 及 聚 类 的 中 心 位 置 ,所 以 人 为 经 验 和 判断 
无 形 中 会 起 很 大 作用 。KCA 方法 本 身 不 仅 要 求 确定 分 类 的 类 数 ,而 且 需 要 事先 确定 点 ， 
也 就 是 聚 类 种 子 。 在 实际 操作 中 ,SPSS 会 自动 选取 种 子 , 然 后 根据 其 他 点 离 这 些 种 子 的 
远近 对 所 有 点 进行 分 类 。 再 然后 ,就 是 将 这 几 类 的 中 心 (均值 ) 作 为 新 的 基石 再 分 类 ,如 此 
迭代 。 

两 步 聚 类 是 揭示 自然 类 别 的 探索 性 工具 。 该 方法 的 算法 与 传统 聚 类 技术 相 比 有 一 些 
显著 的 特点 : 它 可 以 基于 类 别 变量 和 连续 变量 来 进行 聚 类 ;自动 选择 聚 类 结果 的 最 佳 类 
别 数 ;具备 有 效 分 析 大 量 数据 的 能 力 。 

如 果 只 拥有 少量 的 个 案 ( 少 于 数 百 个 ) ,并 且 想 尝试 多 种 聚 类 方法 ,测量 不 同类 别 之 间 
的 差异 , 则 应 该 尝试 使 用 系统 聚 类 。 系 统 聚 类 也 叫 层 次 聚 类 (HCA) 。 当 然 该 方法 不 仅 可 
以 对 样本 聚 类 ,还 可 以 对 变量 聚 类 。 这 种 方法 的 分 类 结果 取决 于 对 聚 类 方法 .距离 测量 方 
法 .标准 化 变量 的 设置 。 这 种 方法 不 事先 确定 类 数 , 有 多 少 点 就 是 多 少 类 , 它 沿 着 最 近 的 
先 聚 为 一 类 的 思想 进行 合并 ,直至 最 后 只 有 一 个 大 类 为 止 。 





3.6 ”可视化 数据 分 析 


随 着 信息 化 的 发 展 和 信息 技术 在 社会 与 国民 经 济 各 个 领域 的 广泛 应 用 ,产生 了 海量 
的 数据 信息 , 面 对 海 量 庞杂 的 数据 人 们 越 来 越 希 望 能 有 直观 、 易 懂 的 方式 查看 数据 。 数 据 
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可 视 化 技术 应 运 而 生 ,将 数据 转换 成 容易 理解 的 图 形 , 用 图 形 的 方式 展现 数据 之 间 的 关系 
并 应 用 现 有 的 数据 对 事物 未 来 的 发 展 做 出 预测 。 

可 视 化 技术 按照 其 目的 可 以 分 成 三 大 类 : 探索 型 验证 型 .表示 型 。 探 索 型 是 指 人 们 
预先 对 数据 没有 任何 认识 ,通过 可 视 化 技术 对 数据 进行 分 析 得 到 数据 的 规律 与 发 展 趋势 
后 提出 关于 数据 的 假设 。 验 证 型 是 人 们 事先 提出 针对 数据 的 假设 之 后 应 用 可 视 化 技术 对 
数据 进行 分 析 ,验证 假设 是 否 合理 。 表 示 型 指 的 是 应 用 有 效 的 手段 或 者 技术 表示 数据 。 

本 节 首 先 介绍 几 种 常用 的 可 视 化 分 析 图 表 , 然 后 介绍 几 个 用 这 些 图 表 进 行 分 析 的 
示例 。 


3.6.1 常用 的 可 视 化 数据 展示 方法 


1. 条 形 图 

条 形 图 又 称 条 状 图 、 柱 状 图 、 柱 形 图 ,是 最 常用 的 图 表 类 型 之 一 。 它 通过 垂直 方向 或 
水 平方 向 展示 维度 字段 的 分 布 情况 。 水 平方 向 的 条 形 图 即 为 一 般 意义 上 的 条 形 图 ,垂直 
方向 的 条 形 图 通常 称 为 柱 形 图 。 

条 形 图 可 以 迅速 对 数据 做 出 比较 ,一 目 了 然 地 揭示 高 低 点 。 如 果 数 值 数据 能 够 被 归 
入 不 同类 别 ,那么 条 形 图 就 尤为 有 效 , 便 于 快速 看 清 数据 中 显示 的 趋势 。 

条 形 图 适合 跨 类 别 比 较 数据 ,如 按 来 源 站 点 划分 的 网 站 流量 、 按 区 域 划分 的 消费 
比率 。 

图 3-24 为 一 个 柱状 图 示例 ,图 3-25 为 一 个 条 形 图 示例 。 
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图 3-24 柱状 图 示例 








2. 直方 图 
直方 图 (Histogram) 又 称 质量 分 布 图 , 它 与 条 形 图 类 似 ,主要 区 别 在 于 条 形 图 主要 用 
于 展示 分 类 数据 ,直方 图 主要 用 于 展示 数值 型 数据 。 
条 形 图 用 于 展示 不 同类 别 的 数据 时 ,类 别 是 离散 的 、 较 少 的 ,而 直方 图 则 是 对 此 类 别 
再 进行 分 组 统计 。 分 组 的 原因 可 能 是 类 别 是 连续 的 ,或 者 类 别 虽 然 离 散 但 数量 很 多 ,可 以 
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图 3-25 条 形 图 示例 
视 为 近似 于 连续 的 。 使 用 直方 图 分 析 的 样本 数据 量 最 好 在 50 个 以 上 。 
如 果 硕 望 了 解数 据 的 分 布 情况 ,如 学 生 考试 成 绩 各 分 数 段 情况 .产品 缺陷 频率 等 , 则 
可 使 用 直方 图 表示 。 
如 图 3-26 所 示 为 用 直方 图 形式 显示 学 生 考 试 成 绩 各 分 数 段 的 人 数 分 布 情 况 。 
成 绩 段 
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图 3-26 考试 成 绩 分 布 直方 图 





3. 折线 图 
折线 图 可 以 显示 随时 间 ( 根 据 常 用 比例 设置 ) 而 变化 的 连续 数据 ,因此 非常 适合 显示 
在 相等 时 间 间 隔 下 数据 的 趋势 。 在 折线 图 中 ,类 别 数据 沿 水 平 轴 均 匀 分 布 ,所 有 值 数 据 沿 
垂直 轴 均 匀 分 布 。 
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折线 图 的 主要 作用 是 显示 一 段 时 间 内 的 数据 的 变化 趋势 ,如 五 年 期 的 股价 变化 、 一 个 
月 内 的 网 页 浏览 量 等 。 
如 图 3-27 所 示 为 一 个 折线 图 示例 。 
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图 3-27 折线 图 示例 
4. 散 点 图 
散 点 图 表示 因 变量 随 自 变量 而 变化 的 大 致 趋势。 一般 情 况 下 , 散 点 图 用 两 组 数据 构成 


多 个 坐标 点 ,通过 观察 坐标 点 的 分 布 ,判断 变量 间 是 否 存 在 关联 关系 以 及 相关 关系 的 强度 。 

需要 注意 的 是 ,相关 关系 不 同 于 因果 关系 ,相关 性 表示 两 个 变量 同时 变化 ,而 因果 关 
系 是 一 个 变量 导致 另 一 个 变量 变化 。 散 点 图 只 是 一 种 数据 的 初步 分 析 工 具 , 能 够 直观 地 
观察 两 组 数据 可 能 存在 什么 关系 ,在 分 析 时 如 果 找 到 变量 间 存 在 可 能 的 关系 , 则 需要 进 一 
步 确认 是 否 存在 因果 关系 ,这 需要 使 用 更 多 的 统计 分 析 工 具 进 行 分 析 。 

进行 相关 关系 分 析 时 ,应 使 用 连续 数据 ,一 般 在 x 轴 ( 横 轴 ) 上 放置 自 变 量 ,在 y 轴 ( 纵 
轴 ) 上 放置 因 变量 ,在 坐标 系 上 绘制 相应 的 点 。 散 点 图 的 形状 可 能 表现 为 变量 间 的 线性 关 
系 、 指 数 关系 或 对 数 关系 等 。 以 线性 关系 为 例 , 散 点 图 一 般 会 包括 如 下 几 种 典型 形状 : 

(1) 正 相 关 : 自 变 量 x 变 大 时 , 因 变 量 y 随 之 变 大 ; 

(2) 负 相 关 : 自 变量 x 变 大 时 , 因 变 量 y 随 之 变 小 ; 

(3) 不 相关 : 因 变 量 y 不 随 自 变量 x 的 变化 而 变化 。 

如 图 3-28 所 示 为 分 析 收 货 天 数 与 客户 满意 度 之 间 的 关系 的 散 点 图 。 

收 货 天 数 与 满意 度 相关 性 分 析 
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图 3-28 收 货 天 数 与 客户 满意 度 的 相关 性 分 析 
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5. 气泡 图 

气泡 图 不 是 自 成 一 类 的 可 视 化 图 形 , 气 泡 图 与 散 点 图 类 似 ,不 同 之 处 在 于 , 散 点 图 对 
成 组 的 两 个 数值 进行 比较 (X 轴 和 Y 轴 ) ,而 气泡 图 对 成 组 的 三 个 数值 进行 比较 ,第 三 个 
数值 确定 气泡 数据 点 的 大 小 。 气 泡 图 用 圆圈 的 不 同 大 小 揭示 数据 的 意义 。 

气泡 图 的 特点 是 具有 视觉 吸引 力 ,能 以 非常 直观 的 方式 展示 数据 。 

图 3-29 显示 了 用 气泡 图 形式 展示 学 生 考 试 成 绩 各 分 数 段 的 人 数 情 况 ,气泡 越 大 代表 
这 个 分 数 段 的 人 数 越 多 。 


90 以 上 


50~59 





图 3-29 各 分 数 段 的 人 数 情 况 


6. 盒 须 图 

盒 须 图 又 称 盒 式 图 . 箱 形 图 或 箱 线 图 ,是 一 种 用 于 显示 数据 的 位 置 . 分 散 情况 .异常 值 
的 统计 图 , 因 形 状 如 箱子 而 得 名 , 常 应 用 于 品质 管理 领域 。 

盒 须 图 上 包括 6 个 数据 节点 ,将 一 组 数据 从 大 到 小 排列 ,分 别 计算 出 上 限 、 上 四 分 位 
数 Q3( 也 称 为 第 三 四 分 位 数 )、 中 位 数 Q2、 下 四 分 位 数 Q1( 也 称 为 第 一 四 分 位 数 )、 下 限 ， 


还 有 一 个 异常 值 。 
。 中 位 数 : 数据 按照 从 大 到 小 的 顺序 排列 ,位 于 中 间 位 置 的 数 , 即 总 观测 数 的 50% 
的 数据 。 


。 第 一 四 分 位 数 : 数据 按照 从 大 到 小 的 顺序 排列 ,处 于 总 观测 数 25% 位 置 的 数据 。 
。 第 三 四 分 位 数 : 数据 按照 从 大 到 小 的 顺序 排列 ,处 于 总 观测 数 75% 位 置 的 数据 。 
。 上限 ; 一 般 情况 下 ,上 限 ==Q3 十 1. 5X(Q3 一 Q1)。 也 可 以 人 工 设置 上 限 值 。 

。 下 限 ; 一 般 情 况 下 ,下 限 ==Q1 一 1.5X(Q3 一 Q1)。 也 可 以 人 工 设 置 下 限 值 。 

。 异常 值 : 上 限 和 下 限 之 外 的 数据 。 
一 般 来 说 ,上 限 与 第 三 四 分 位 数 之 间 以 及 下 限 与 第 一 四 分 位 数 之 间 的 形状 称 为 须 状 ， 

第 三 分 位 数 与 第 一 分 位 数 之 间 的 形状 称 为 盒 状 。 盒 须 图 的 示意 图 如 图 3-30 所 示 。 

计算 四 分 位 数 首先 要 确定 Q1、Q2、Q3 的 位 置 (n 表示 数字 的 总 个 数 ) : 

。 QIl 的 位 置 =(n 十 1)/4 

。 Q2 的 位 置 = (n 十 1)/2 

. 50 . 








第 3 章 常用 数据 分 析 与 预测 方法 





上 限 


第 三 四 分 位 数 Q3 








中 位 数 Q2 


一 第 一 四 分 位 数 Ql 





Ft 


〇 一 一 一 一 一 异 党 值 


图 3-30 盒 须 图 示意 图 


。 Q3 的 位 置地 3X (n 十 1)/4 

盒 须 图 中 盒 部 分 的 顶部 线条 是 第 三 四 分 位 数 的 位 置 , 即 Q3, 表 示 有 75% 的 数据 小 于 
或 等 于 此 值 ; 底 部 线条 是 第 一 四 分 位 数 的 位 置 , 即 Q1, 表 示 有 25% 的 数据 小 于 此 值 。 整 
个 盒 所 代表 的 是 数据 集中 50%( 即 75%~~25%) 的 数据 , 盒 的 高 度 就 是 这 些 数据 涉及 的 范 
围 , 能 够 表现 出 数据 的 集中 程度 。 

盒 须 图 的 美中不足 之 处 在 于 它 不 能 提供 关于 数据 分 布 偏 态 和 尾 重 程度 的 精确 度量 ， 
对 于 批量 较 大 的 数据 批 , 盒 须 图 反映 的 形状 信息 更 加 模糊 ;用 中 位 数 代 表 总 体 平 均 水 平 有 
一 定 的 局 限 性 等 。 因 此 ,应 用 盒 须 图 最 好 结合 均值 .标准 差 、 偏 度 和 分 布 函 数 等 其 他 统计 
工具 来 描述 数据 批 的 分 布 形状 。 

7. 地 图 

统计 数据 是 社会 经 济 现象 的 反映 ,必然 要 考虑 反映 对 象 的 空间 位 置 , 空 间 活 动 状态 及 
统计 对 象 在 空间 上 的 相互 作用 与 影响 。 地 图 是 一 种 很 好 地 展示 数据 空间 分 布 特征 的 可 视 
化 形式 。 

当 数 据 中 包含 地 理 编码 、 邮 政 编码 、 国 家 名 、 省 /市 等 位 置信 息 数 据 时 ,就 可 以 使 用 地 
图 来 展示 数据 ,如 按 国家 划分 的 出 口 目的 地 、 自 定义 的 销售 区 域 等 。 

可 以 将 地 图 与 其 他 图 形 组 合 起 来 使 用 ,以 便 更 好 地 展示 信息 。 例 如 ,将 地 图 与 气泡 
图 一 起 使 用 ,用 气泡 图 展示 数据 的 集中 度 和 不 同 大 小 ,用 地 图 阐释 不 同 数据 点 的 地 理 


影响 。 

3.6.2 可 视 化 分 析 示 例 
本 节 介 绍 柏拉图 和 散 点 图 的 应 用 ,探索 可 视 化 技术 在 实际 中 的 使 用 。 
3.6.2.1 示例 1 一 一 柏拉图 


柏拉图 分 析 法 是 19 世纪 的 经 济 学 家 维尔 法 度 。 柏拉图 首创 的 ,目的 是 把 一 大 堆 数据 
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重组 ,排列 成 有 意义 的 图 表 , 从 而 指出 问题 的 原因 所 在 和 优 次 关系 。 

柏拉图 分 析 的 原则 是 二 八 原则 , 即 80% 的 问题 是 由 20% 的 原因 造成 的 。 柏 拉 图 是 按 
照发 生 频 率 的 大 小 顺序 绘制 直方 图 ,将 出 现 的 质量 问题 和 质量 改进 项 目 按照 重要 程度 依 
次 排列 而 采用 的 一 种 图 表 。 柏 拉 图 常用 于 分 析 质 量 问 题 .确定 影响 质量 的 主要 因素 .指导 
纠正 措施 的 实施 ,以 便 快 速 地 提升 产品 质量 。 

3. 6.1 节 介 绍 的 各 种 图 可 以 单独 使 用 ,也 可 以 组 合 起 来 使 用 。 柏 拉 图 就 是 将 柱状 图 
与 折线 图 综合 使 用 的 一 种 数据 分 析 图 ,是 柱状 图 加 折线 图 的 另 一 种 叫 法 。 

柏拉图 是 分 析 和 寻找 影响 质量 最 主要 因素 的 一 种 工具 ,其 形式 是 一 条 分 类 轴 \ 两 条 数 
值 轴 的 坐标 图 。 

。 左边 的 纵 坐标 表示 频数 (如 件数 、 价 值 等 ) ,右边 的 纵 坐 标 表 示 频 率 ( 百 分 比 ) 。 

。 折线 表示 累计 百分比 ,这 是 作 图 和 分 析 的 重点 。 

。 横 坐标 表示 影响 质量 的 各 种 因素 , 按 影响 程度 的 大 小 ( 即 出 现 频数 的 多 少 ) 从 左 向 

右 排列 。 

柏拉图 分 析 法 的 主要 步骤 如 下 。 

(1) 柏拉图 需要 使 用 三 列 数据 : 第 一 列 是 影响 因素 名 称 ;第 二 列 是 频数 , 即 出 现 的 次 
数 ;第 三 列 是 各 影响 因素 占 的 百分比 。 

(2) 对 数据 按 频 数 进行 降序 排序 。 

(3) 新 生成 一 列 数据 : 累计 百分比 ,并 计算 各 影响 因素 到 当前 行 的 累计 百分比 。 

(4) 使 用 影响 因素 .百分比 和 累计 百分比 生成 复 状 柱 形 图 。 

(5) 需要 使 用 主要 横 纵 坐标 轴 和 次 要 横 纵 坐标 轴 。 

(6) 更 改 累 计 百 分 比值 为 折线 图 。 

(7) 隐藏 次 要 坐标 轴 。 

1. 示例 介绍 

表 3-4 是 一 家 大 型 铸模 公司 的 数据 ,该 公司 制作 计算 机 键盘 洗衣 机 汽车 和 电视 机 
的 塑料 器 件 。 表 中 数据 是 三 个 月 中 有 缺陷 计算 机 键盘 的 数据 。 下 面 分 析 当 决策 制定 者 着 
手 改进 时 可 以 从 哪些 方面 进行 改进 。 


表 3-4 三 个 月 中 生产 的 键盘 缺陷 原因 汇总 表 


























原 因 频 数 百分比 /% 
是 点 413 6:53 
破损 1 039 16. 43 
喷射 258 4.08 
顶 白 834 13. 19 
划 痕 442 6. 99 
缺 料 275 6 
银 条 413 6. 53 
缩水 371 5..87 
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续 表 
原 因 频 数 百分比 /% 
喷雾 痕 292 4. 62 
扭曲 变形 1 987 34. 本 
汇总 6 324 100.01 
2. 示例 分 析 


在 Excel 2013 中 ,对 该 数据 进行 如 下 分 析 。 
(1) 根据 表 3-4 中 的 数据 构建 Excel 文件 ,文件 中 的 数据 样式 如 图 3-31 所 示 。 图 中 
数据 是 按 百 分 比 从 大 到 小 排列 的 。 














| 48 A | B | C | D 
1 原因 频数 百分比 % 累计 百分比 % 
| 2 | 扭曲 变形 1987 31. 42 
| 3 | 破损 1039 16. 43 
| 4 | 顶 白 834 13.19 
[5 | 划 痕 442 6. 99 
6 黑 点 413 6. 53 
| 银 条 413 6.53 
8_ 缩水 371 5. 87 
_9 | 喷雾 痕 292 4.62 
[10 缺 料 275 4. 35 
11 喷射 258 4.08 
区 列 总 计 6324 100. 01 
本 





图 3-31 键盘 缺陷 原因 汇总 表 
(2) 计算 表 中 各 个 累计 百分比 。 选 中 单元 格 D2, 输 入 如 下 公式 并 按 回 车 键 , 如 
图 3-32 所 示 。 


SUM($ C$ 1:$ C2) 


=SUNM ($C$1 :$C2) 
ne | D 


图 3-32 计算 累计 百分比 











选中 单元 格 D2 ,移动 鼠标 至 D2 右 下 角 直 到 出 现 一 个 小 的 十 字 架 , 按 住 鼠 标 左 键 并 
向 D3 单元 格 方向 移动 ,一 直 拖 放 到 D11 单元 格 。 这 样 D3 单元 格 是 D2 和 C3 两 个 单元 
格 值 的 累加 ,D4 单元 格 是 D3 和 C3 两 个 单元 格 中 值 的 累加 , 依 此 类 推 。 最 终结 果 如 
图 3-33 所 示 。 
(3) 选中 单元 格 Al 到 A1l1、C1 到 C11、D1 到 D11, 然 后 在 “插入 ”功能 区 中 单 击 “ 插 
入 柱状 图 ”图 标量 引 , 在 “二 维 柱 形 图 ”中 选择 第 一 个 “ 簇 状 柱 形 图 ”( 如 图 3-34 所 示 ), 生 成 
如 图 3-35 所 示 的 柱 形 分 析 图 。 
(4) 添加 次 坐标 。 和 鼠标 右键 单 击 柱 形 图 中 “累计 百分比 ”中 任意 一 个 矩形 条 ,在 弹出 
的 菜单 中 选择 “设置 数据 系列 格式 ”, 在 弹出 的 “设置 数据 系列 ” 窗 格 中 选择 “次 坐标 轴 ”, 如 
图 3-36 所 示 。 
. 53 . 


大 数据 应 用 分 析 技 术 与 方法 













































































由 | B | BE D | EE 
1 原因 频数 百分比 % 累计 百分比 % 二 维 柱 形 图 
2 | 扭曲 变形 1987 31. 42 31. 42 
ES 破损 1039 16. 43 47. 85 I | 
4 顶 白 834 13.19 61.04 
加 到 划 妆 442 6. 99 68. 03 三 维 相 容 状 柱 形 图 
6 | 黑 点 413 6. 53 74. 56 i 
所 银 条 413 6.53 81. 09 /出 的 全 人 
8 缩水 371 5. 87 86. 96 列 情 况 下 使 用 它 : 
9 喷雾 痕 292 4.62 91. 58 * 类 别 | 的 顺序 不 重要 。 
10 缺 料 275 4. 35 95. 93 | 
末 喷射 258 4.08 100. 01 

总 和 
1 总 计 6324 100. 01 MS 

图 3-33 ”累计 百分比 结 图 3-34 ”选择 “ 簇 状 柱 形 图 ” 
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: | | 
20 
| | | 
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设置 数据 系列 格式 


系列 选项 v 
(> 全 晤 || 


4 系列 选项 
系列 绘制 在 


主 坐 标 轴 (p) 

g 次 坐标 轴 (S) 
系列 重 委 (O) -二 一 | -27% 
分 类 间 距 (W) 一 一 | 219% 








图 3-36 ”选择 “次 坐标 轴 ” 


(5) 关闭 "设置 数据 系统 格式 ? 窗 格 ,如 图 3-35 所 示 的 柱状 图 将 变 为 如 图 3-37 所 示 的 


形式 。 


(6) 将 "累计 百分比 ?绘制 成 曲线 。 鼠 标 右键 单 击 柱 形 图 中 “累计 百分比 中 任意 一 个 
形 条 ,在 弹出 的 菜单 中 选择 “更 改 系列 图 标 类 型 ,在 弹出 的 “更 改 图 标 类 型 窗口 中 , 选 


mm 禾 状 柱 形 图 -次 坐标 轴 上 的 折线 图 ”, 则 图 的 形式 变 为 如 图 3-38 所 示 的 形式 。 
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图 3-37 设置 好 “次 坐标 轴 ” 后 的 柱 图 形式 
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图 3-38 将 累计 百分比 绘制 为 曲线 后 的 柱 图 形式 


(7) 若 要 在 折线 上 显示 数据 , 则 可 在 折线 上 右 击 鼠 标 ,然后 从 弹出 的 菜单 中 选择 “ 添 
加 数据 标签 ”>“ 添 加 数据 标签 ”。 
(8) 隐藏 次 要 坐标 轴 。 在 折线 上 右 击 鼠标 ,在 弹出 的 菜单 中 选择 “更 改 数据 系列 格 
式 ”, 在 出 现 的 “设置 数据 系列 格式 ” 窗 格 (如 图 3-36 所 示 ) 中 ,选中 “ 主 坐 标 轴 ”。 
最 终生 成 的 柏拉图 如 图 3-39 所 示 。 
120 
100 





ee 上 分 [上 % 一 一 条 计 百 分 比 % 


图 3-39 最 终生 成 的 柏拉图 
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3. 结果 分 析 

柏拉图 在 分 析 问 题 的 主要 因素 与 次 要 因素 时 采用 的 是 二 八 原则 。 通 过 上 述 生 成 的 柏 
拉 图 可 知 ,扭曲 变形 破损 、 顶 白 、 划 痕 . 黑 点 、 银 条 六 个 因素 占据 了 约 80% ,是 键盘 产生 缺 
陷 的 主要 原因 ,在 六 个 因素 中 ,扭曲 变形 .破损 、 顶 白 占 据 了 约 60%。 因 此 ,为 了 改善 键盘 
的 缺陷 问题 ,生产 者 可 以 努力 减少 由 扭曲 变形 破损、 项 白 引 起 的 缺陷 来 获得 最 大 收益 ,再 
努力 减少 划 痕 、. 黑 点 、. 银 条 缺陷 以 进一步 提升 收益 。 


3.6.2.2 示例 2 一 一 散 点 图 


散 点 图 是 数据 点 在 直角 坐标 系 平面 上 的 分 布 图 ,常常 用 于 判断 变量 之 间 是 否 存在 某 
种 关联 以 及 数据 的 发 展 趋势 。 根 据 散 点 图 中 各 个 变量 之 间 变 化 的 大 致 趋势 ,可 以 选择 合 
适 的 函数 对 数据 点 进行 拟 合 ,从 而 对 后 续 数 据 的 发 展 进行 预测 。 在 选择 进行 拟 合 的 趋势 
线 时 ,可 以 参考 参数 R 的 平方 值 , 参 数 越 接近 1 ,表示 趋势 线 的 拟 合 程度 越 高 ,趋势 预测 也 
就 越 精确 。 

散 点 图 是 用 来 判断 两 个 变量 之 间 的 相互 关系 的 常用 工具 ,一 般 情况 下 , 散 点 图 用 两 组 
数据 构成 多 个 坐标 点 ,通过 观察 坐标 点 的 分 布 , 判 断 变量 间 是 否 存 在 关联 关系 ,以 及 相关 
关系 的 强度 。 

进行 相关 关系 分 析 时 ,应 使 用 连续 数据 ,一 般 在 xz 轴 ( 横 轴 ) 上 放置 自 变 量 ,y 轴 ( 纵 
轴 ) 上 放置 因 变 量 , 在 坐标 系 上 绘制 出 相应 的 点 。 散 点 图 的 形状 可 能 表现 为 变量 间 的 
线性 关系 、 指 数 关系 或 对 数 关 系 等 。 以 线性 关系 为 例 , 散 点 图 一 般 包括 如 下 几 种 典型 

。 正 相关 : 自 变量 x 变 大 时 , 因 变 量 y 随 之 变 大 ; 

。 负 相关 : 自 变量 x 变 大 时 , 因 变 量 y 随 之 变 小 ; 

。 不 相关 : 因 变 量 y 不 随 自 变量 zx 的 变化 而 变化 。 

1. 示例 介绍 

某 网 站 统计 了 客户 收 货 天 数 和 满意 度 结果 ,满意 度 最 高 为 5 分 ,最 低 为 1 分 。 数 据 如 
表 3-5 所 示 。 下 面 分 析 客户 收 货 天 数 与 满意 度 之 间 的 关联 关系 。 


表 3-5 客户 收 货 天 数 与 满意 度 























收 货 天 数 满意 度 
6 4.5 
12 3 
8 3 
6 5 
18 二 
3.5 
4 
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续 表 
收 货 天 数 满意 度 
8 2..5 
11 3 
2 5 
12 2.5 
旺 4 
6 4 
9 2 





[ee 
cn 








心 
cn 






































13 2 
14 ks 
9 3 
3 
3 3.5 
6 4 
5 4.5 
16 1 
9 2.5 
6 3.5 
10 3 
yA 2 





2. 示例 分 析 

在 Excel 2013 中 ,对 该 数据 进行 如 下 分 析 。 

(1) 数据 准备 。 将 如 表 3-5 所 示 的 数据 录入 Excel 文件 中 ,文件 中 的 数据 如 图 3-40 
所 示 ( 图 中 只 展示 了 部 分 数据 ) 。 

(2) 绘制 散 点 图 。 选 中 Al1:B30 区 域 , 在 “插入 ”功能 区 的 “图 表 ” 模 块 中 单 击 “ 散 点 
图 ”, 选 择 “ 仅 带 数 据 标记 的 散 点 图 ”图 标 ( 如 图 3-41 所 示 ) ,此 时 Excel 中 出 现 初 步 的 散 点 
图 ,如 图 3-42 所 示 。 
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4 
O 〇 O | 在 下 列 情况 下 使 用 它 : 
一 | . 测 








Ea 
图 3-40” 收 货 天 数 与 满意 度数 据 图 3-41 选择“ 仅 带 数据 标记 的 散 点 图 ” 
客户 满意 度 
6 
5 © bd ® 
Dd 
4 bd © 
Dd © 
3 ©® 0 0 0 0 © 
四 @ ® 
2 © 9 ® Dd ® 
全 @ 
1 
: | 
0 5 10 15 20 


图 3-42 客户 满意 度 散 点 图 





(3) 修改 散 点 图 坐标 标题 。 选 中 散 点 图 , 单 击 右边 随 之 出 现 的 加 号 图 标 [+j, 在 出 现 的 


“图 表 元 素 ” 列 表 框 中 色 选 “坐标 轴 标 题 *( 如 图 3-43 所 示 )， 
此 时 生成 带 坐 标 轴 标 题 的 散 点 图 ,如 图 3-44 所 示 。 在 
图 3-44 中 将 横 、 纵 坐标 的 标题 修改 为 “ 收 货 天 数 ” 和 "客户 满 
意 度 ”, 如 图 3-45 所 示 。 

(4) 删除 散 点 图 的 网 格 线 。 如 果 不 希 望 散 点 图 上 有 网 
格 线 , 则 可 将 其 删除 。 我 们 这 里 删除 纵向 网 格 线 。 选 中 
图 3-45 中 的 任意 一 条 纵向 网 格 线 , 单 击 鼠 标 右键 ,在 弹出 的 
列表 中 选择 “删除 ”, 结 果 如 图 3-46 所 示 。 

(5) 添加 趋势 线 。 选 中 散 点 图 中 的 某 个 数据 点 , 单 击 鼠 






































图 3-43 


















































勾 选 “坐标 轴 标 题 ” 


标 右键 ,在 出 现 的 列表 选项 中 选择 “添加 趋势 线 ”, 出 现 如 图 3-47 所 示 的 “设置 趋势 线 格 


式 ” 窗 格 , 在 此 窗 格 中 色 选 “显示 公式 ”和 “显示 R 平 方 值 ”。 


关闭 “设置 趋势 线 格式 ” 窗 格 , 散 点 图 样式 如 图 3-48 所 示 。 


(6) 选择 最 优 趋 势 线 。 在 步骤 (5) 中 ,选择 不 同 的 趋势 线 会 得 到 不 同 的 R? 值 。 选 择 
指数 时 R= 二 0.758, 线 性 时 R= 二 0.748 4, 对 数 时 R? 二 0.721 2, 多 项 式 时 R? 二 0.764 9, 徊 
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时 R? 二 0.667 5。 可 以 看 出 选择 多 项 式 趋势 线 时 ,R 的 值 最 大 ,因此 在 这 里 选择 使 用 多 项 
式 趋 势 线 。 最 终 的 散 点 图 如 图 3-49 所 示 。 
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图 3-47 “设置 趋势 线 格式 ” 窗 格 
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说 明 : 在 利用 散 点 图 做 相关 分 析 时 ,可 以 添加 趋势 线 。 添 加 趋势 线 后 Excel 会 同时 
显示 回归 方程 和 尺 平 方 。 其 中 R 是 相关 系数 ,R 平方 是 决定 系数 。 一 般 来 说 ,R 的 值 越 
高 越 好 。 

结果 分 析 

通过 分 析 散 点 图 可 以 发 现 , 收 货 天 数 和 客户 满 

客户 满意 度 越 低 。 


意 度 存在 负 相关 关系 , 收 货 天 数 越 长 ， 


3.7 环境 准备 


打开 Excel 2013, 单 击 “ 数 据 ”" 菜 单 , 如 果 在 工具 栏 的 最 右边 没有 出 现 “ 数 据 分 析 ” 图 标 
则 可 通过 如 下 步骤 将 其 加 到 工具 栏 中 。 

. 打开 Excel 2013 文件 ,在 “文件 ”菜单 上 单 击 鼠 标 左 键 ,在 弹出 的 菜单 中 选择 “ 选 

页 ”命令 ,弹出 “Excel 选项 ”窗口 ,如 图 3-50 所 示 。 


一 数据 分 析 ， 
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图 3-50 “Excel 选 


2. 在 “Excel 选项 ”窗口 中 , 先 在 左边 的 “ 常 
击 “ 转 到 ”按钮 ,弹出 如 图 3-51 所 示 的 “加 载 宏 ” 窗 
3. 在 “加 载 宏 ”窗口 中 , 勾 选 “分 析 工 具 库 ”， 


项 ”窗口 


ea tt 项 ”, 然 后 在 下 边 单 


i 


a on 
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4.1 大 数据 应 用 分 析 的 实务 框架 


4.1.1 大 数据 应 用 分 析 的 四 个 层面 


大 数据 应 用 分 析 从 实务 角度 可 以 划分 为 四 个 层面 ,如 图 4-1 所 示 。 
第 一 个 层面 : 器 。 主 要 指 分 析 数 据 用 的 利器 , 包 
括 硬件 和 软件 两 大 方面 。 硬 件 包 括 计 算 机 、 移 动 设备 、 
传感器 .视频 音频 设备 等 ;软件 包括 数据 库 系 统 、 文 字 
处 理 软件 ,数据 分 析 软 件数 据 采集 软件 数据 转换 软 
件 .图 像 处 理 软件 和 专用 的 工具 模块 等 。 
第 二 个 层面 : 技 。 主 要 指 分 析 数 据 的 技术 和 方 
法 ,包括 四 个 方面 的 主要 内 容 。 
。 方法。 有 适用 于 大 数据 的 一 些 技术 ,包括 大 规 图 4-1 大 数据 应 用 分 析 的 四 个 层面 
模 并 行 处 理 (MPP) 数 据 库 、 数 据 挖掘 、 分 布 式 
文件 系统 、 分 布 式 数据 库 、 云 计算 平台 、 互 联网 、 可 扩展 的 存储 系统 ,以 及 具体 的 技 
术 和 方法 ,例如 ,如 何在 系统 庞大 的 企业 管理 软件 中 下 载 数 据 , 如 何 采集 大 型 关系 
数据 库 中 的 数据 ,如 何 采 集 视频 音频 数据 ,如 何在 动态 数据 中 定位 采集 分 析 需 要 
的 数据 , 当 数 据 被 恶意 删除 后 如 何 恢 复 , 如 何 利用 卫星 遥感 图 片 (简称 卫 片 ) 和 航 
片 数据 ,如 何 进行 统计 分 析 ,趋势 分 析 、` 回 归 分 析 、 挖 气 分 析 。 再 细 一 步 讲 在 运用 
地 理 信息 系统 软件 对 空间 数据 开展 分 析 时 ,如 何 交集 取 反 、 擦 除 `. 相 交 、 裁 剪 、 缓 冲 
区 分 析 ,拓扑 检查 等 。 
。 参数 。 为 了 解读 数据 的 含义 ,做 出 明确 的 判断 ,必须 有 对 照 的 标准 数据 ,标准 数据 
包括 法 律 法 规 . 行 业 标准 、 技 术 参 数 .历史 数据 等 。 
。 函数 。 数 据 分 析 人 员 会 在 平时 的 分 析 中 积累 大 量 的 模块 ,建立 常用 的 函数 库 。 
。 案例 。 在 数据 分 析 工 作 中 经 历 过 的 具有 典型 性 和 普遍 借鉴 意义 的 事件 总 结 。 
在 方法 ,参数 .函数 和 案例 四 个 方面 中 ,方法 ,参数 是 公开 的 、 共 享 的 ;函数 常常 带 有 私 
有 性 、 专 属性 的 特点 ,需要 数据 分 析 人 员 凭 借 自 己 的 努力 积累 和 沉淀 ;经 典 案例 则 具有 更 
大 的 放射 性 效果 ,仁者 见 仁 , 智 者 见 智 ,每 个 人 都 可 以 品味 出 有 益 的 味道 。 
第 三 个 层面 : 道 。 指 分 析 数 据 的 思维 方式 。 大 数据 的 数据 量 巨大 、 类 型 繁多 、 瞬 息 万 
变 , 如 何在 浩瀚 无 际 的 汪洋 大 海中 捞 到 细 如 毫发 的 一 根 针 ? 关键 是 要 有 一 个 清晰 明确 的 
分 析 思 路 ,我 们 称 之 为 大 数据 分 析 的 思维 方式 。 大 数据 分 析 的 思维 方式 可 以 有 多 种 ,其 中 
基础 的 是 特征 发 现 。 特 征 发 现 包 括 特征 枚 举 、 特 征 捕捉 和 特征 分 析 三 个 步骤 。 特 征 发 现 
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的 前 提 是 假定 任何 行为 都 是 有 痕迹 .有 特征 的 。 归 纳 不 同行 为 的 特征 ,然后 去 观察 分 析 对 
象 中 有 没有 这 类 痕迹 , 若 发 现 有 类 似 特 征 ,就 捕捉 含有 此 类 特征 的 痕迹 数据 ,进行 解读 分 
析 。 例 如 在 地 震 前 夕 ,会 出 现 很 多 异常 现象 , 鸡 会 乱 飞 、 狗 会 狂 叫 ,水 位 会 变化 .山体 的 移 
动 会 加 剧 等 。2015 年 4 月 25 日 14 时 11 分 ,尼泊尔 发 生 8.1 级 强烈 地 震 。 一 位 中 国 游 客 
描述 当时 的 情景 说 :“ 动 物 比 人 警觉 ,在 有 震感 前 ,广场 上 一 大 群 鸟 突然 全 都 飞 了 起 来 。 
原本 懒散 地 趴 在 桥 上 的 印度 神 牛 也 狂奔 起 来 ”集中 发 生 这 种 现象 常常 预示 着 可 能 发 生地 
震 , 有 了 这 种 分 析 的 前 提 , 数 据 分 析 师 就 可 在 多 个 观测 点 中 观察 有 没有 这 些 情况 发 生 ,如 
有 ,可 及 时 采集 、 整 理 相 关 的 数据 ,然后 进行 解读 ,做 出 判断 。 在 特征 发 现 思维 方式 中 包含 
三 个 要 素 : 公理 .数据 、 演 绎 。 以 在 我 国 许多 地 方 流传 的 “ 八 月 十 五 云 遮 月 ,正月 十 五 雪 打 
灯 ? 这 名 气象 谚语 为 例 , 这 是 千 百 年 来 古人 观察 和 经 验 的 结晶 ,大 家 都 认为 是 正确 的 ,是 不 
容 置 颖 的。 这 就 是 “公理 ”。 然 后 人 们 观察 农历 八 月 十 五 这 一 天 是 否 出 现 了 云 遮 月 ,是 或 
不 是 都 记录 下 来 (采集 ) ,这 就 是 数据 。 最 后 得 出 结论 ,如 果 是 , 则 正月 十 五 要 雪 打 灯 ,否则 
就 不 打 。 这 是 演绎 推理 做 出 判断 。 

第 四 个 层面 : 美 。 这 里 的 “ 美 ? 是 指 审美 活动 。 为 什么 要 谈 起 这 个 问题 呢 ? 在 上 面 一 
段 论述 中 我 们 谈 到 ,特征 发 现 思维 方式 包括 公理 ,数据 、 演 绎 三 个 要 素 。 公 理 是 先 人 们 发 
现 总 结 并 且 被 人 们 所 公认 的 , 奉 为 在 泉 ,是 分 析 数 据 的 标准 。 有 了 这 个 标准 ,我 们 才能 开 
展 分 析 活 动 , 才 能 解析 数据 的 意义 。 但 是 公理 、 定 律 这 类 东西 是 被 逐步 发 现 的 。 世 界 越发 
展 、 人 类 的 研究 活动 越 深 入 ,数据 的 联系 也 越 来 越 复 杂 , 需 要 研究 和 回答 的 困惑 或 问题 就 
越 多 ,出 现 了 许多 新 变化 .新 情况 .新 问题 ,原来 的 公理 .定律 可 能 不 够 用 了 ,有 的 可 能 还 暴 
露出 了 缺陷 和 问题 ,需要 完善 或 者 推翻 重 来 。 如 何在 没有 公理 .定律 这 些 标准 的 时 候 去 开 
展 分 析 呢 ? 如 何在 前 人 从 未 遇 到 过 的 数据 面前 开展 数据 分 析 呢 ? 这 个 时 候 特 别 需 要 强调 
直觉 和 想象 力 。 很 多 科学 家 都 认为 ,在 科学 研究 中 要 想 有 所 发 现 和 发 明 , 要 想 获 得 创造 性 
的 成 果 ,必须 依赖 直觉 和 想象 。 爱 因 斯 坦 十 分 强调 想象 .直觉 .灵感 在 科学 研究 中 的 作用 。 
他 认为 ,科学 体系 中 的 概念 和 命题 都 是 思维 的 自由 创造 ,所 以 必须 突破 形式 逻辑 的 局 限 。 
他 说 :“ 我 相信 直觉 和 灵感 “想象 力 比 知识 更 重要 ,因为 知识 是 有 限 的 ,而 想象 力 概括 着 
世界 上 的 一 切 ,推动 着 进步 ,并 且 是 知识 进化 的 源泉 。 严 格 地 说 ,想象 力 是 科学 研究 中 的 
实在 因素 .他 还 说 :“ 物 理学 家 的 最 高 使 命 是 要 得 到 那些 最 普遍 的 基本 规律 ,由 此 世界 体 
系 就 能 用 单纯 的 演绎 法 建立 起 来 。 要 通 向 这 些 定律 ,并 没有 逻辑 的 道路 ,只 有 通过 那 种 以 
对 经 验 的 共鸣 的 理解 为 依据 的 直觉 ,才能 得 到 这 些 定律 。” 

叶 朗 先生 在 《美学 原理 ) 中 把 依赖 直觉 和 想象 力 的 研究 活动 归纳 在 科学 美的 范畴 。 科 
学 美 主要 是 一 种 数学 美 .形式 美 。 杨 振 宁 认为 ,理论 物理 学 存在 三 种 美 : 现象 之 美 、 理 论 
描述 之 美 ,理论 架构 之 美 。 现 象 之 美 是 指 物理 现象 之 美 。 理 论 描述 之 美 是 指 一 些 物 理 定 
律 有 一 种 很 美的 理论 描述 ,如 热力 学 的 第 一 、 第 二 定律 就 是 对 自然 界 的 某 些 基本 性 质 的 很 
美的 理论 描述 。 理 论 架 构 之 美 是 指 一 个 物理 学 的 定律 公式 化 时 , 它 趋 向 一 个 美的 数学 架 
构 。 这 种 物理 学 的 理论 架构 ,以 “极度 浓缩 的 数学 语言 写 出 了 物理 世界 的 基本 结构 ”, 是 一 
种 深层 的 美 。 追 求 科 学 美 是 科学 研究 的 一 种 动力 ,很 多 科学 家 都 相信 对 美的 追求 可 以 把 
我 们 引 向 真理 的 发 现 。 很 多 有 原创 性 的 物理 学 家 都 说 ,他 们 的 创见 是 在 灵感 的 一 闪 中 获 
得 的 ,不 是 一 点 一 滴 地 推荐 ,也 不 是 按 逻 辑 过 程 进行 分 析 推 理 , 而 是 突然 间 有 如 神助 地 出 
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现 了 。 大 数据 本 身 是 十 分 枯燥 和 冰冷 的 ,数据 分 析 师 如 果 能 把 烦琐 的 分 析 变 成 一 种 发 现 
规律 的 审美 活动 ,相信 分 析 过 程 会 充满 乐趣 和 奇迹 ,充满 审美 过 程 的 享受 .9 


4.1.2 四 个 层面 的 关系 


如 图 4-2 所 示 , 上 面 介绍 的 器 、 技 . 道 和 美 四 个 层面 可 对 应 到 大 数据 分 析 的 四 个 方面 ， 
分 别 是 ; 器 -工具 软件 ; 技 技术 方法 ; 道 _ 思维 方 
式 ;美感 党 想象 。 

在 大 数据 分 析 的 完整 过 程 中 ,数据 是 核心 ,是 分 析 的 对 
象 。 围 绕 数 据 中 心 ,器 是 工具 ,是 分 析 师 手中 的 武器 。 大 数 。 | 三 党 & 林 
据 是 数字 化 的 ,肉眼 是 不 可 见 的 ,而 且 有 些 数据 需要 在 一 定 ”\、 
的 语 境 下 才能 识 读 ,如 传感器 数据 .卫星 数据 等 ,要 经 过 多 
次 的 转换 翻译 ,才能 辨识 。 同 时 ,所 有 数字 化 数据 都 是 有 严 
格格 式 的 ,都 需要 在 特定 的 系统 中 才能 处 理 。 更 为 重要 的 ”图 4.2 四 个 层面 的 相互 关系 
是 ,在 许多 大 数据 分 析 软 件 和 工具 中 开发 厂商 投入 了 艰辛 
的 研究 ,提供 了 许多 成 熟 的 方法 和 技术 ,固化 了 许多 经 验 ,为 数据 分 析 师 提供 了 许多 方便 ， 
非常 有 益 于 开展 分 析 。 器 是 基本 是 前 提 、 是 必 不 可 少 的 。 但 是 有 了 这 个 工具 ,如 何 使 用 ， 
使 之 发 挥 最 大 的 功能 ,就 来 到 了 第 二 个 层面 一 技术 和 方法 。 工 具 再 好 ,即便 是 具有 学 习 
能 力 的 软件 也 是 人 设计 的 ,要 发 挥 它 的 作用 ,需要 使 用 者 掌握 熟练 的 技能 和 技巧 。 对 一 些 
经 典 技术 和 方法 要 反复 训练 .反复 实践 ,达到 熟 能 生 巧 的 境界 。 在 掌握 了 熟练 的 技术 以 
后 ,能 否 有 效 地 开展 分 析 , 从 数据 的 矿藏 中 开发 和 冶炼 出 真 金 白银 就 要 看 分 析 者 的 思维 方 
式 是 否 科学 .概括 特征 是 否 准确 、 捕 提 痕 迹 是 否 敏锐 、 辨 析 规律 是 否 科学 。 在 全 部 的 分 析 
过 程 中 ,思维 方式 是 一 个 纲 , 是 思路 、 是 灵魂 ,是 统领 全 部 分 析 活动 的 。 分 析 思 路 是 否 正 
确 、 思 维 是 否 清晰 ,常常 决定 着 分 析 活 动 的 成 败 高 下 。 事 情 到 这 里 并 没有 结束 。 有 时 候 分 
析 活动 会 出 现 这 样 的 现象 ,分 析 师 做 了 大 量 工作 ,但 分 析 始终 停留 在 一 定 的 水 平 上 , 挖 所 
不 出 价值 更 大 的 宝藏 。 这 就 要 从 美的 层面 上 去 寻找 原因 ,最 根本 的 原因 是 分 析 者 缺乏 创 
造 性 思维 ,尤其 是 遇 到 从 来 没有 见 到 过 的 数据 . 面 对 从 来 没有 开展 过 的 分 析 时 ,面临 缺乏 
标准 的 困惑 时 缺少 感觉 和 想象 力 ,缺少 灵光 闪现 。 

从 上 面 的 简要 论述 中 ,我 们 也 可 以 体会 到 ,在 数据 分 析 动 态 过程 中 ,器 、 技 . 道 和 美 是 
循环 往复 出 现 的 ,各 司 其 职 ,完美 融合 在 一 起 发 挥 作用 ,相互 补充 , 相 得 益 闵 。 






4.2 大 数据 分 析 的 特征 发 现 


大 数据 中 的 数据 量 巨大 ,类 型 繁多 ,来源 多 处 , 真 可 谓 千 头 万 绪 、 盘 根 错 节 ,金子 常常 
被 掩埋 在 厚 厚 的 沙 堆 之 中 ,要 对 这 样 的 数据 展开 分 析 , 运 用 功能 强大 的 分 析 工 具 , 掌 握 分 
析 的 技术 和 方法 ,都 是 十 分 必要 的 。 但 仅仅 有 这 些 还 是 不 够 的 ,核心 的 问题 是 分 析 师 必须 
有 清晰 的 分 析 思 路 ,培养 科学 的 思维 方式 ,这 就 是 特征 发 现 。 本 节 将 结合 具体 分 析 案 例 ， 





@ 以 上 爱 因 斯 坦 的 几 眉 话 和 杨振宁 先生 的 论述 转 引 自 叶 朗 .美学 原理 [MJ]. 北京 : 北京 大 学 出 版 社 ,2009: 第 七 章 . 
。65 。 
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进一步 讨论 这 种 思维 方式 。 
4.2.1 特征 发 现 的 案例 
2015 年 4 月 25 日 星期 六 凤凰 网 发 表 了 一 则 新 闻 。 
原 标题 : 他 让 股市 5 分 钟 范 发 近 万 亿美 元 


英国 期 货 交 易 员 纳 温 德 。 辛 格 。 萨 劳 21 日 因 被 美国 司法 部 指控 涉嫌 操纵 市 场 而 被 
英国 警方 逮捕 ,面临 引渡 。 一 桩 2010 年 美国 股市 “闪电 崩盘 ”的 陈 年 旧 案 由 此 再 次 被 媒体 
翻 开 , 而 这 名 交易 员 则 成 为 争议 焦点 。 

是 谁 , 那 一 天 让 纽约 股市 道琼斯 指数 在 5 分 钟 内 暴跌 600 点 ,总 市 值 蒸发 近 ] 万 亿美 
元 ,而 自己 件 利 近 百 万 美元 ? 英国 媒体 23 日 刊登 了 萨 劳 的 照片 ,让 外 界 首次 一 睹 这 名 “ 华 
尔 街 之 狼 ” 的 真 容 。 

2010 年 5 月 6 日 ,道琼斯 指数 在 20 多 分 钟 内 暴跌 约 1 000 点 ,其 中 最 剧烈 的 600 点 
下 跌 发 生 在 5 分 钟 内 ,之 后 指数 又 大 幅 回升 。 这 一 交易 日 也 创下 美国 股市 有 史 以 来 最 大 
单 日 盘 中 跌幅 , 堪 称 华尔街 历史 上 波动 最 为 剧烈 的 20 分 钟 。 

美国 执法 部 门 调查 发 现 , 事 件 的 罪魁 祸首 是 来 自 英国 的 萨 劳 。 他 当时 在 位 于 伦敦 郊 
区 的 普通 住宅 内 ,利用 家 用 电脑 对 美国 股市 的 期 货 交 易 系统 下 虚假 合约 单 ,制造 刺 慌 并 引 

美方 指控 , 萨 劳 利用 一 个 计算 机 交易 程序 对 美股 股指 期 货 下 巨额 卖 单 ,但 能 瞬间 实现 
撤 单 ,以 保证 这 些 卖 单 不 会 成 交 , 却 能 对 交易 价格 构成 实时 抛 压 。 这 一 做 法 的 目的 并 非 完 
成 交易 ,而 是 影响 价格 和 达到 操纵 市 场 的 目的 ,因而 构成 欺诈 。 

5 月 6 日 那 一 天 , 萨 劳 自 上 午 开 始 就 对 交易 系统 下 虚假 卖 单 , 市 场 出 现下 跌 趋 势 后 ， 
他 继续 加 大 “抛售 ?力度 ,在 中 午 12 时 33 分 左右 达到 最 疯狂 阶段 ,致使 美股 指数 暴跌 。 萨 
劳 随后 在 暴跌 的 地 点 购 进 数 只 “便宜 ”期 货 合 约 , 待 股指 回升 后 抛售 ,当天 有 晕 利 近 90 万 

美国 司法 部 估计 ,2010 一 2014 年 , 萨 劳 通过 交易 美股 标 普 500 指数 期 货 合 约 总 共有 改 
利 4 000 万 美元 。 

萨 劳 如 今 面临 美方 司法 部 门 提起 的 一 项 电信 其 诈 、10 项 大 宗 商 品 欺 诈 、10 项 大 宗 商 
品 市 场 操纵 行为 以 及 一 项 欺骗 行为 指控 。 如 果 被 裁定 成 立 ,这 些 指控 合计 将 为 萨 劳 带 来 
最 高 380 年 监禁 。 

无 独 有 偶 ,2015 年 11 月 1 日 ,新 华 社 发 布 消息 ; 上 海 公安 机 关 成 功 侦破 一 起 以 贸易 
公司 为 掩护 ,境外 冰 控 指挥 .境内 实施 交易 ,作案 手段 隐 芯 非法 获 利 巨大 的 涉嫌 操纵 期 贷 
市 场 的 案件 。2015 年 六 七 月 间 , 中 国 证 券 期 货 市 场 出 现 异 常 巨 幅 波 动 ,广大 投资 者 蒙受 
巨大 损失 。 针 对 相关 部 门 移交 和 公安 机 关 侦 查 掌 握 的 一 些 违法 犯罪 线索 ,公安 机 关 掌 握 
了 外 商 投 资 的 伊 世 上 顿 公 司 涉嫌 操纵 期 货 市 场 等 犯罪 的 线索 , 遂 交 由 上 海 市 公安 局 依法 开 
展 立 案 侦 查 。 专 案 组 查 明 , 伊 世 顿 公 司 系 外 籍 人 员 Georgy Zarya (音译 扎 亚 )、Anton 
Murashov( 音 译 安 东 ) 在 香港 各 自 注 册 成 立 一 家 公司 后 ,于 2012 年 9 月 用 两 家 香港 公司 
的 名 义 在 江苏 省 张家港 保税 区 以 美元 出 资 注册 成 立 的 贸易 公司 。 扎 亚 为 伊 世上 顿 公 司法 定 
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代表 人 , 安 东 负 责 技术 管理 。 两 人 在 公司 成 立 前 分 别 供 职 于 欧洲 的 投资 银行 和 期 货 公 司 ， 
从 事 证 券 期 货 交 易 工作 。 受 扎 亚 、 安 东 指 使 ,中 国境 内 的 犯罪 分 子 为 规避 中 国 金 融 期 货 交 
易 所 相关 规定 的 限制 ,先后 向 亲友 借 来 个 人 或 特殊 法 人 期 货 账户 31 个 , 供 伊 世 顿 公司 组 
成 账户 组 进行 交易 。 伊 世 顿 公司 以 贸易 公司 为 名 ,隐瞒 实际 控制 的 期 货 账 户 数量 ,以 50 
万 美元 注册 资本 金 以 及 他 人 出 借 的 360 万 元 人 民 币 作为 初始 资金 ,在 中 国 参与 股指 期 货 
交易 。 安 东 及 其 境外 技术 团队 设计 研发 出 一 套 高 频 程序 化 交易 软件 ,远程 植 入 伊 世 顿 公 
司 托管 在 中 国 金 融 期 货 交 易 所 的 服务 器 ,以 此 操控 、 管 理 伊 世 顿 账户 组 的 交易 行为 。 伊 世 
顿 账户 组 通过 高 频 程序 化 交易 软件 自动 批量 下 单 、 快 速 下 单 ,申报 价格 明显 偏离 市 场 最 新 
价格 ,实现 包括 自 买 自 卖 ( 成 交 量 达 8 110 手 、113 亿 元 人 民 币 ) 在 内 的 大 量 交 易 , 利 用 保证 
金 杠杆 比例 等 交易 规则 ,以 较 少 的 资金 投入 反复 开 仓 、 平 仓 , 使 盈利 在 短期 内 快速 放大 , 非 
法 获 利 高 达 20 多 亿 元 人 民 币 。2015 年 6 月 初 至 7 月 初 ,证 券 期 货 市 场 大 幅 波动 , 伊 世 上 顿 
公司 在 交易 沪 深 300、 中 证 500、 上 证 50 等 股指 期 货 合 约 过 程 中 , 卖 出 开 仓 、 买 入 开 仓 量 在 
全 市 场 中 位 居 前 列 , 该 公司 账户 组 平均 下 单 速 度 达 每 0. 03 秒 一 笔 ,一 秒 内 最 多 下 单 31 
笔 , 且 成 交 价 格 与 市 场 行 情 的 偏离 度 显 著 高 于 其 他 程序 化 交易 者 。 以 6 月 26 日 的 中 证 
500 主力 合约 为 例 , 该 公司 账户 组 的 卖 开 量 占 市 场 总 卖 出 量 30 中 以 上 的 次 数 达 400 余 次 ; 
以 秒 为 单位 计算 , 伊 世 上 顿 账户 组 的 卖 开 成 交 量 在 全 市 场 中 位 列 第 一 的 次 数 为 1 200 余 次 ; 
其 卖 开 成 交 价格 与 市 场 行情 的 偏离 度 为 当日 程序 化 交易 者 前 5 名 平均 值 的 2 倍 多 。 据 统 
计 , 仅 6 月初 至 7 月初 ,该 公司 账户 组 净 盈 利 就 达 5 亿 余 元 人 民 币 。 监 管 机 构 认 为 , 伊 世 
顿 公司 的 期 货 交易 行为 扩大 了 日 内 交易 价格 波幅 ,与 市 场 价格 走势 存在 关联 性 ,影响 了 当 
时 的 市 场 交 易 价格 和 正常 交易 秩序 。 公 安 机 关 认 为 , 伊 世 顿 公司 的 异常 交易 行为 符合 操 
纵 股指 期 货 市 场 的 特征 ,涉嫌 操纵 期 货 市 场 犯 罪 。 侦 查 还 表明 , 伊 世 上 顿 公司 将 巨额 非法 获 
利 中 的 近 2 亿 元 人 民 币 通过 “地 下 钱庄 ”转移 出 境 , 交 给 安 东 等 境外 人 员 。 


读 了 上 面 的 新 闻 ,相信 很 多 读者 对 股市 和 期 货 市 场 的 风险 会 有 更 进一步 的 理解 ,同时 
也 会 更 加 深切 地 认识 到 打击 内 幕 交 易 .操纵 市 场 等 违法 行为 的 必要 性 。 其 实 , 这 也 是 监管 
部 门 努力 追求 的 一 个 目标 。 而 要 达到 这 个 目标 ,大 数据 分 析 是 锐利 的 武器 ,也 是 必 不 可 少 
的 。 下 面 是 一 个 内 幕 交 易 案件 的 完整 查处 过 程 。 

案件 查处 背景 

2007 年 我 国 的 A 股 一 路 上 扬 , 上 证 指数 到 10 月 16 日 达到 了 6 124 点 ,从 10 月 下 名 
开始 震荡 ,然后 下 跌 , 到 2008 年 10 月 28 日 下 跌 到 1 664 点 , 坐 了 一 个 大 大 的 过 山 车 。 
2008 年 夏季 当 股 市 一 路 下 跌 的 时 候 , 一 个 检查 组 进入 一 家 证 券 公司 ,检查 股市 交易 中 存 
在 的 问题 。 当 时 面临 的 形势 是 股市 还 在 不 停 地 震荡 ,许多 股民 ,尤其 是 许多 散户 被 深度 套 
牢 ,笼罩 在 一 片 阴云 之 中 。 股 市 怎么 了 ? 有 没有 内 幕 交 易 ? 有 没有 操纵 市 场 ? 有 没有 老 
鼠 仓 ?怎样 才能 有 效 地 监管 股市 ? 怎样 才能 保护 广大 股民 的 合法 权益 ? 这 些 都 成 了 从 上 
到 下 ,从 管理 层 到 普通 股民 一 致 关心 的 问题 。 股 市 风 诵 云 施 ,数据 海量 ,进出 频繁 ,头绪 杂 
乱 , 从 哪里 人 手 ,怎样 才能 发 现 其 中 的 问题 呢 ? 难度 之 大 ,难以 想象 。 检 查 组 面临 严峻 的 
考验 。 怎 么 办 ?检查 人 员 反 复 讨论 ,决定 先 召 开 座谈 会 。 

集思广益 确定 检查 方向 : 资金 内 转 

检查 组 组 织 了 由 证 券 公 司 管理 层 、 操 盘 手 、 股 评分 析 师 等 参加 的 多 个 座谈 会 ,广泛 听取 
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大 家 对 开展 证 券 市 场 检 查 的 建议 。 功 夫 不 负 有 心 人 ,在 汇总 讨论 意见 的 时 候 , 大 家 发 现 尽管 
各 个 组 参加 的 对 象 不 同 ,看 问题 的 角度 不 同 ,但 所 有 的 讨论 都 提出 了 一 个 建议 ,要 重点 开展 
对 资金 内 转账 户 的 检查 。 什 么 是 内 转账 户 呢 ? 就 是 有 的 账户 开 了 户 后 不 是 买卖 股票 ,而 是 
大 量 频繁 地 转移 资金 ,常常 是 多 个 账户 之 间 相 互 划 转 , 转 来 转 去 ,有 的 最 后 又 转 回 到 源 账 户 
画 了 一 个 圆 , 有 的 资金 被 转 走 , 不 见 了 踪影 。 这 样 频繁 地 转移 ,本 身 就 掩盖 着 一 定 的 目的 ,这 
类 账户 应 当 列 为 检查 关注 的 重点 。 大 家 统一 了 认识 ,确定 检查 方向 是 : 资金 内 转 。 

运用 特征 分 析 的 思维 方式 展开 检查 

在 实施 检查 中 ,检查 组 运用 特征 分 析 的 思维 方式 ,有 条 不 率 , 层 层 推 进 ,精准 延伸 。 

第 一 步 : 特征 枚 举 

大 家 查阅 法 律 法 规 , 上 网 寻找 国内 外 的 案例 ,借鉴 司法 部 门 的 案件 ,列举 资金 内 转 的 
所 有 表现 形式 ,了 人 解 资金 内 转 是 如 何 操作 的 ,列举 出 了 多 种 方式 。 如 : 

。 将 大 额 资金 分 散 转 至 若干 账户 ; 

。 资金 转 人 后 立即 购买 股票 ; 

。 多 个 账户 向 一 个 账户 转 入 资金 ; 

。 相关 联 的 内 转账 户 集中 购买 一 只 股票 ; 

。 相关 联 的 内 转账 户 集中 卖 出 一 只 股票 ; 

通过 特征 枚 举 ,检查 人 员 加 深 了 对 资金 内 转 操作 方式 的 了 解 ,为 进一步 查处 商定 了 
基础 。 

第 二 步 : 特征 捕捉 

首先 ,采集 整理 数据 ,构建 审计 中 间 表 。 从 该 证 券 公司 北京 .上 海 .武汉 、 深 圳 等 各 个 
节点 采集 相关 数据 后 ,检查 人 员 经 过 筛选 整理 ,生成 了 客户 交易 流水 中 间 表 及 客户 信息 中 
间 表 两 张 数据 表 。 其 中 客户 交易 流水 中 间 表 (如 图 4-3 所 示 ) 记 录 该 证 券 公司 业务 客户 的 
A 股 交 易 流水 明细 情况 ;客户 信息 中 间 表 (如 图 4-4 所 示 ) 记 录 客 户 基 本 信息 明细 情况 。 
在 对 客户 交易 流水 数据 的 浏览 观察 中 ,检查 人 员 发 现 了 一 个 数据 的 重要 属性 ,凡是 内 转交 
易 ,“ 摘 要 代码 ”字段 值 均 是 代码 “140025”。 

其 次 ,查询 有 资金 内 转 的 账户 。 

查询 1: 筛选 出 有 资金 内 转 的 账户 


select 客户 代码 ,客户 姓名 ,资金 账号 ,sum( 资 金 转 出 ) 转 出 合计 
into 资金 转 出 大 户 from 主 表 北京 2 A 股 交易 流水 表 
where 摘要 代码 = '140025' 

group by 客户 代码 ,客户 姓名 ,资金 账号 

order by 转 出 合计 


对 “资金 转 出 大 户 ” 表 的 查询 结果 如 图 4-5 所 示 。 
分 析 “ 资 金 转 出 大 户 ” 表 ,发 现 有 一 个 叫 孙 X X 的 客户 将 其 资金 账户 内 的 171 万 元 分 
别 转 至 苗 XX 等 12 个 自然 人 的 资金 账户 中 。 
查询 和 分 析 孙 XX 的 资金 转 出 记录 。 
查询 2: 筛选 出 “ 孙 X XX” 的 资金 转 出 记录 
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对 多 列 红 右 Q) 
国 10 18 1 1 Cest) 二 
-北京 : 


20070406 .... 221001 0 110734 
20060531 .,.. si i 220000 -25653. 79 |- 264346. 
20060531 220000 -30130. 00 234216. 
20060531 . 220000 -22672.81 - 211543. 
20060531 220000 i -22672. 80 188870. 
20060531 . 140025 -- -120000.00 188000C 
20060531 . 140025 现金 姑 | 转 ... -200000. 00 168000C 
20060531 . 140025 -- -80000.00 160000C 
220000 -25294. 7 671450. 
220000 i -81614.50 . 5898365. 
220000 -312461. 10 .00 277374. 
140005 ee 986983. 74 7631363 
140011 0 ‘ad6. 20 da6. 20 





到 岳 要 各 称 (chwr (15)， ell) 

国 资金 团 出 Gamerie (9,2)，Wull1) 
国 资金 秆 入 Cnamerie 9, 2)，Wull) 
回 资金 本 次 侠 宙 Gdtont,， Yot Wull) 
固 及 未 代码 Gat ehar32, Hot Nall) 











Ee -| 160022 - -500000.00 | .00 103036E 
到 | 证 状 码 (ateherle。， aet Null) 160022 1 -500000. 00 .00 
和 证 券 名 称 (atm 221001 154602. 50 
证 券 关 别 (4 221001 
银行 代码 221001 
请 位 代码 221001 
证 半 改 生 澈 20070514 221001 
证 淮 余 由 20070514 221001 158267. 3 
到 ] 交易 英 型 20070621 140033 二 .00 
人 言 同 厚 - 221001 1 696561. 31 
到 ] 委托 数量 140005 = 1201439. 85 
委托 价格 140005 现金 划 转 . .。 767693. 79 32897€ 
委托 时 介 140033 183. 26 
成 交 时 间 


140033 a 183. 00 
140011 0 S 183. 07 
140025 2 9 143000C%| 


戌 交 洲 最 Cdtaty, 
而 立 价格 (dtprie， 
而 这 侈 寅 (dtwnt， Wot Null) 

到 上 ] 效 伞 会 (dateo。。， Hot Null) 二 
| 





saacococococococooococoooocasoocaoaooocao 














型 开山 | | 困 加 辐 ”| 到 中 傅 建 投 计算 机 十 计 春 .| 30t 宣 疝 分析 多 -[ 硬 而 
图 4-3 客户 交易 流水 中 间 表 













































































































5QL 查询 分 析 器 - [查询 一 10.18.1 2 文档 2008 enedhewliieniiniiiilt 中 礁 和 材料 \ 无 标题 1.sql*] 
嘱 文件 E) 编辑 (E) 查询 (9) 工具 (D 窗口 (W) 帮助 中 二 | 本 区 | 
| 油 - 蕊 回 辐 | 风 丁 高 本 师 | 避 | 国文 本 [Digcrm 习 | 要 | 车 区 | 可 加 
FTRTRRTT x 
目 10.18.1.1 (test) ] select * from dbo. 客户 基本 信息 表 
[be ee 
的 ne 汪 交 Ee EE 0 0 3706026606 1638029 1 0 20060227 
[站 国 才 AB Gteostid Tot Fo 213050... 0 5303811987... 3017 10 20060302 
上 国 客户 全 名 (atehar64，Not hall 2 入 刘 
[EH tid ot Weal) 213050.., 0 0 3706026004.. J53... 1 0 20060302 
| - 国 个 人 标志 (atkina ot Na) 213050... |: 0 0.3701031973. .. j36. . 1 0 20060302 
上- 转 证 件 呈 码 (atidno ot Mall) 213050... 0 0 3706821983.. ‘36,00 1 0 20060302 
加 证 件 发 放 机 构 地 址 (atehar64 9 010 3706021977.。。 114 1 0 20060302 
上 国 性 别 (atkind, yot Holl) j51.，， 10 20060302 
“国学 历 (tind， hot Wall) j35. 1 0 20060303 
-国生 日 dtdate Wot Wall) 0.0.3706025605. 309. . 1 0 20060306 
- 国 逢 中 (atcharl8, yot Mall) 010 3724237306..。 j38. .. 1 0 20060307 
“回国 家 (atkind, Not Mall) j35. 1 0 20060307 
| 时 (dteharB4, Not Null le ji38. 1 .0 20060310 
一 国 邮政 编 吗 (atehar16，Not ll 010 3706841978.. 316. 10 20060314 
|- 国 传真 号 码 (atehar32，Not oll 010 3707261973..- jd6. . 1 0 20060314 
[国电 话 是 码 (atchar32, Jot ll 0 0 3729291978.. ja20 10 20060315 
[上 国 戎 动 电 证 "(itoher92; Yot Jan 0 0 3706116512... 956 1 0 20060317 
上面 电子 邮件 (tehar32, Jot Tall 0 0 3706291972. .. 53. 1 0.20060320 
| 目 闪 到 ee ea 四 010 3728301971. . $87. 10 20060321 
| 0 0 3706281962... j642 10 20060322 
| 国 ee a 误 pa 0.0.3706021971... j642 1 0 20060322 
- 国 riskfacter (dtkinds, Not Nol 上 010|3706025202.. . j642 1 0 20060322 
|- 国 eriterion (atkinas Not al 0 0 3706021979. . ji642 10 20060322 
“图 备注 信息 (dtkinds, Wot Jul) 0 0 3706026809. . ji642 10 20060322 
“ 国 特殊 备注 (dtkinds, Hot i) 0 0 3706024103. j642 1 0 20060322 
国 romariz Gatkinds, hot Wal) : 010 3729281987. . 。 ji642 1 0 20060322 
; 010 3704811986. ji642 1 0 20060322 
G42 10 20060322 
lv E E 642 1 0 20060322 
7 ,lilol: | 642 10 20060322 | 
2 一 so 
上 口 巾 国 消 息 
[eal I10.18,1.1(9.0) Rest (52) HE 京 2+un [0:00:01 ”lrnd#1: 100 行 阿 1, 列 11 





半 FED [JR 
9:14 


二 天 | | 四 全 大 ”| 本 中 全 尘 抽 计算 机 审计 .|[ 权 5QL 喜光 分 析 器 -[ 夺 已 延伸 认 各 材料 | 国 wooor sed | | 国 | 与 | 2 | 本 加 人 罗 个 v4 
图 4-4 客户 信息 中 间 表 
select x into 孙 XX 转 出 


from 主 表 _A 股 交易 流水 表 
where 摘要 代码 = '140025' and 客户 代码 = "XxXXX0023613 
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键入 需要 帮助 的 问题 i 疼 到 






























































































客户 代码 客户 姓名 资金 帐号 。” 转 出 合计 

38839| :| 92809880|-10793177. 8 | 
01022| 】 90900178 -10000000| 
74521| | 39309986| -8826000| 

38383| i 92809416| -4592900 四 

22587 98242889 -3308320. 62 | mu | 

38189 」 92809213| -2890000 

13278 - 90713278, -2887800| E 
20396 -| 90720395 -2807789 
38776 | 」 92809820 -2681500| 

21025 | 98241248 -2660000| | 

20090 90720090 -2200000 -| 

20123| : 90720123| -1935800 | 
13| 00842 | 90200953 -1827216. 55 
14 18763| | 90718763|-1814334. 07| 
15| 10712| | 30621738| -1800000| 
16| .23613 30523758| -1710000| 
17 '19689| | 90719685| -1456429.6| 
18 J29252 | 90723565| -1400000| 
19 24949 30630455 -1307417. 48| 


FZXZYEE) 











图 4-5 有 资金 内 转 的 全 部 记录 
该 语句 筛选 出 的 数据 如 图 4-6 所 示 。 


键入 需要 帮助 的 问题 


1880000 





0| 
0 
0 





0000 1320000 
140025 现金 划 转 取 1200000| 
140025 | 
-20060531 | 1023613 | 1 上 LBB 140025 |3 
20060531 1023613 | 140025 
20060531 | 1023613 | | i23758 | 140025 
| 1023613 _ 由 局 | 3 Ca 14 0| 
20060531 1023613 | 290000 
| | 

























































































图 4-6 发 现 孙 XX 有 资金 内 转行 为 
e700» 
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查询 3: 筛选 出 与 “ 孙 X X” 转 出 记录 对 应 的 资金 转 入 记录 


select * into 12 人 转 入 
from 主 表 A 股 交 易 流水 表 
where 操作 日 期 = '2006- 5- 31' and 摘要 代码 = '1400025" 
and 资金 转 入 in(120000,200000,110000,130000, 80000, 
170000, 150000, 100000, 180000) 


查询 4: 筛选 出 * 孙 XX” 等 13 户 的 全 部 交易 流水 


select x into 孙 XX 全 部 
from 主 表 _A 股 交易 流水 表 
where 客户 代码 = 'X X X Xx X 0023613' 


查询 5: 筛选 出 “ 孙 X xX” 等 13 户 关联 内 转账 户 的 开户 情况 


select x into 13 户 开户 资料 

from 客户 基本 信息 表 

where 客户 代码 between 'X X X X X 0023618' and 'X X X X X 0023631' 
or 客户 代码 = 'X X X Xx Xx 0023613' 


该 语句 筛选 出 的 数据 如 图 4-7 所 示 。 


1 和 A WK IAD MR OV Wh [CTTT 
per PE | 
PE PF WR TRNA 六 扩 着 太 布 风 和 

EE EEE | 


-== = == == = 
客户 代码 。 ”客户 姓名 帝 金 帐号 摘要 名 称 资金 转 入 帝 金 本 次 余 
23619 23743 现金 划 转 存 “200000 
23620 23745 现 全 划 转 存 1890000 
23621 23746 现金 划 转 存 ， 150000 
Q3622 23747 现金 划 转 存 ， 100000 
3623 23748 现金 划 转 存 ， 150000 
23624 23749 现金 划 转 存 130000 
23625 23750 现金 划 转 存 120000 
23626 23751 筑 侈 划 转 存 ， 110000 
23627 23752 现金 划 转 存 170000 
23628 23753 现 会 世 转 存 80000 
23629 23755 现金 蓝 转 存 200000 
23630 23756 现 全 划 转 存 120000 








图 4-7 发 现 与 孙 XX 交 易 的 账户 客户 代码 连续 


查询 6: 筛选 出 12 户 关联 内 转账 户 股票 卖 出 后 将 资金 转 回 “ 孙 X X ”资金 账户 的 记录 


select * into 孙 XX 转 信 
from 主 表 A 股 交易 流水 表 
a Tl 
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where 摘要 代码 = "1400025' ang 客户 代码 = 'X X X X X 0023613" 


该 语句 科 选 出 的 数据 如 图 4-8 所 示 。 


Microsoft Excel - 查询 1_13 户 开户 资料 .XLS 





EF 
; 曙 ] 文件 到 ) 编辑 字 ) ”视图 奶 ”插入 QD) 格式 0) 工具 CD) 数据 @) 窗口 帮助 0 键入 需要 帮助 的 问题 ”7-8x 
区 回忆 全 | 及 | 区 才 |¥ 加 网 -可 | 四 -Sj 妨 三 - 针 入 | 有 三 10x -加 有明 

EEE PE TET TD | 

















;宋体 四 3 Lu 后- 和 入 国 | 时 ,% -2 基 避 | 过 生生 宁 目 
P6 B6665642 

B © 机 了 二 

客户 代码 客户 全 名 联系 地 址 ,邮政 编码 ， 电 话 号 码 “开户 日 期 

2 )023613 利 市 芝 时 区 文化 宫 后 街 88 号 ”| 4000 ,054555556| 20060314 

3 i023619 苗 大 海 阳 145 号 4000 ' ;65642 20060322 

4 )023620 邻 大 海 阳 145 号 ' 4000 ”165642 20060322 

6 )023621 孙 ， ”西南 关 南 街 3-7 号 | 4000 ' ;65642 20060322 
j023622 丁 大 海 阳 145 号 ，400 呵 | ;65642 | 20060322 

1 )023623 丁 ,一 大 海 阳 145 号 ”4000 :65642 20060322 

8 )023624 张 ; 黄 集 乡 西 张 庄 新 镇 村 | 4000 ' :65642 20060322 

9 J023625 让 天 海 阳 145 号 4000 ' :65642 20060322 

图 )023626 分 : 平 里 店 镇 石柱 兰 村 515 号 | 4000 ' i65642 20060322 

出 J023627 刘 大 海 阳 145 号 4000 ' i65642 20060322 

12 )023628 黄 "王家 庄 镇 孟 家 官 庄村 4000 :65642 20060322 

13 )023629 徐 ， ,大海 阳 145 号 " 4000 ' ;65642 20060322 

1 )023630 韩 4 ”= 生辰 街道 梨园 村 62 号 |_..4000 ' ;65642 20060322 

15 

16 

17 

18 | 

19 

20 

RN 塌 台 13 户 开户 次 料 / al 1 并 











就 绪 数字 
则 | | 四 人 旧 ”| 已 查 拓 果 表 | 加 二 定点 精确 | 国 中 和，| [ 天 1 可 -| 加 merec-” | 国 | 与 | 2 | | 国 罗 定 区 不 丽 105 
图 4-8 发现 与 孙 X X 交 易 的 联系 人 电话 号 码 相同 


进一步 分 析 发 现 具体 过 程 如 下 : 2006 年 5 月 , 孙 XX 通 过 银 证 转账 的 方式 分 四 笔 将 
200 万 元 转 和 人 其 在 某 证 券 公司 营业 部 的 资金 账户 ,并 将 其 中 的 29 万 元 用 于 购 入 “x* STX xX” 
股票 ,与 此 同时 他 又 将 剩余 的 171 万 元 分 别 转 入 苗 XX 等 12 个 自然 人 的 资金 账户 ,并 全 
部 用 于 购 和 人 “x STX X ”股票 。2007 年 3 月 至 5 月 ,上 述 13 个 账户 中 的 “x STX X” 股 票 
被 陆续 卖 出 ,在 不 到 一 年 的 时 间 里 合计 艇 利 861. 86 万 元 ,收益 率 高 达 430%。2007 年 
6 月 , 苗 XX 等 12 人 的 资金 账户 中 的 资金 被 全 部 转 回 孙 X X 的 资金 账户 , 孙 X XX 资金 账 
户 的 全 部 资金 于 第 二 日 即 被 以 银 证 转账 的 方式 转 出 。 从 2006 年 5 月 200 万 元 资金 转 和 人 
至 2007 年 6 月 全 部 资金 转 出 ,这 13 个 账户 基本 无 其 他 股票 买卖 行为 发 生 。 通 过 查询 “ 客 
户 信息 中 间 表 ”中 上 述 13 个 账户 的 开户 资料 还 发 现 , 除 孙 X XX 外 ,其 余 12 户 均 为 2006 年 
3 月 同一 天 开户 ,客户 代码 连续 ,所 留 联系 电话 及 邮政 编码 等 信息 完全 相同 。 通 过 延伸 孙 
XX 的 开户 行 发 现 ,在 2006 年 5 月 孙 XX 将 200 万 元 转 入 其 证 券 公司 资金 账户 的 前 一 
天 ,一 个 名 为 徐 XX 的 人 将 其 个 人 结算 账户 内 的 200 万 元 转 入 了 孙 X XX 的 账户 ,而 此 前 孙 
XX 的 账户 内 的 余额 仅 为 1 元 钱 。 最 后 发 现 , 徐 XX 正 是 %* STX X” 的 收购 重组 方 一 一 
某 实业 集团 有 限 公 司 的 董事 长 。 

第 三 步 : 特征 分 析 

对 照 我 国 相关 的 证 券 法 律 法 规 , 徐 XX 是 "x* STX X” 的 收购 重组 方 一 一 某 实业 集团 
有 限 公司 的 董事 长 ,是 内 幕 人 。 他 掌握 了 证 券 交易 活动 中 涉及 公司 的 经 营 、 财 务 或 者 对 公 
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司 证 券 的 市 场 价格 有 重大 影响 的 尚未 公开 的 信息 ,而 且 在 内 幕 信息 的 价格 敏感 期 内 买卖 

相关 股票 ,组 织 他 人 买卖 相关 股票 ,泄漏 该 信息 。 徐 X X 的 行为 属于 典型 的 内 幕 交易 。 
检查 组 上 报 的 检查 结果 ,引起 了 管理 层 的 高 度 重视 ,对 涉案 人 员 进 行 了 严肃 处 理 。 
分 析 了 上 面 的 案例 ,再 来 讨论 特征 发 现 的 思维 方式 ,会 有 更 真切 的 感受 。 


4.2.2 特征 发 现 的 概念 


特征 是 指 可 以 反映 事物 特点 的 征象 .标志 等 。 特 征 发 现实 际 上 是 指 从 大 数据 中 提取 
有 用 的 信息 和 知识 的 过 程 。 

大 数据 的 特征 发 现 可 以 分 为 已 知事 件 的 特征 发 现 、 未 知事 件 的 特征 发 现 及 征兆 发 现 
等 。 已 知事 件 的 特征 发 现 是 指数 据 分 析 人 员 主 要 依据 历史 案例 、 业 务 处 理 逻 辑 等 建立 模 
型 进行 特征 发 现 。 在 分 析 过 程 中 ,通常 已 知 某 些 行 为 的 特征 表现 ,列举 出 特征 ,然后 运用 
一 定 的 技术 方法 寻找 符合 特征 的 数据 ,并 进一步 分 析 取 证 。 未 知事 件 的 特征 发 现 是 指 运 
用 数据 挖掘 等 技术 方法 发 现 事 件 的 特征 ,这 些 特征 在 得 出 挖掘 结 果 之 前 分 析 人 员 是 无 法 
预测 的 。 而 征兆 发 现 与 一 般 特 征 的 发 现 有 很 大 的 差异 ,特征 是 指 事件 (问题 案件) 已 经 发 
生 , 而 征兆 则 是 指 事件 尚未 发 生 或 正在 进行 当中 。 因 此 ,对 已 知事 件 、 未 知事 件 的 特征 发 
现 及 征兆 发 现 的 一 般 过 程 和 技术 方法 都 是 不 同 的 。 为 了 表述 和 理解 的 方便 ,本 书 在 讨论 
特征 发 现时 是 作为 一 个 大 的 概念 使 用 的 ,包含 了 已 知事 件 的 特征 发 现 、 未 知事 件 的 特征 发 
现 及 征兆 发 现 三 种 情况 。 

在 物 联网 、 互 联网 、 云 计算 、 卫 星 跟踪 定位 等 日 益 发 达 的 今天 ,任何 行为 ,包括 人 的 行 
为 ,大 自然 的 行为 .社会 的 行为 .经 济 的 行为 ,机 器 的 行为 等 都 会 实时 留 下 痕迹 。 这 些 痕 
迹 , 有 行为 痕迹 ,行为 痕迹 记录 活动 的 过 程 ; 有 系统 痕迹 ,系统 痕迹 是 在 计算 机 处 理 为 基础 
的 网 络 系统 中 留 下 的 印记 ,如 系统 日 志文 件 的 数据 ;有 数据 痕迹 ,数据 痕迹 是 在 数据 库 和 
其 他 数据 记录 、 处 理 、 存 储 介质 中 留 下 的 记载 。 这 些 痕 迹 中 具有 代表 性 的 ,能 够 表现 其 特 
点 的 被 称 为 特征 。 这 三 种 类 型 的 特征 互相 联系 、 互 相映 射 。 行 为 特征 映射 系统 特征 、 数 据 
特征 ,系统 特征 映射 行为 特征 、 数 据 特征 ,数据 特征 映射 行为 特征 、 系 统 特征 。 这 种 联系 和 
映射 是 特征 发 现 得 以 实施 的 客观 前 提 和 基础 。 


4.3 对 数据 的 分 类 


在 大 数据 环境 下 ,数据 类 型 十 分 复杂 ,有 来 自 天 上 的 ,如 航天 .卫星 数据 ,有 来 自 地 下 
的 ,如 地 震 观 测 数据 ;有 来 自 人 的 ,如 管理 数据 财务 数据 ,文本 数据 ,有 来 自 机 器 的 ,如 物 
联网 传感器 数据 ;有 事后 的 数据 ,如 财务 报表 ;有 实时 的 数据 ,如 录像 监控 数据 …… 在 对 数 
据 展开 分 析 时 ,可 以 按 需要 从 不 同 的 角度 进行 分 类 。 采 取 何 种 标准 .如 何 划 分 类 型 ,要 服 
务 于 分 析 的 需要 。 如 果 要 分 析 数 据 的 变化 ,可 以 用 时 点 划分 数据 ;如 果 要 强调 数据 的 出 
处 ,可 以 用 数据 的 来 源 来 划分 :如 果 要 强调 数据 的 格式 ,可 以 用 是 否 具 有 典型 的 结构 来 划 
分 ,等 等 。 

在 数据 的 应 用 分 析 中 ,有 一 种 分 类 经 常 被 分 析 师 采用 : 把 数据 分 成 数值 型 数据 和 非 
数值 型 数据 两 大 类 。 数 值 型 数据 包括 数值 类 型 .货币 类 型 .日 期 类 型 和 字符 串 类 型 的 数 
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据 。 这 是 我 们 在 分 析 实 践 中 遇 到 最 多 的 情况 。 非 数值 型 数据 如 文本 文件 .图 像 ,声音 乃至 
网 页 .社交 网 站 ,传感器 等 其 他 类 型 的 数据 。 在 分 析 实 务 中 ,这 两 类 数据 常常 融合 在 一 起 
使 用 。 非 数值 型 数据 常常 激发 分 析 人 员 的 灵感 ,帮助 形成 分 析 思 路 。 数 值 型 数据 常常 作 
为 查询 ,多 维 、 挖 掘 分 析 的 对 象 ,从 中 发 现 规律 ,锁定 证 据 。 

为 了 更 好 地 说 明 两 类 数据 的 结合 在 数据 分 析 中 的 作用 ,我 们 再 看 一 个 土地 整治 审计 
分 析 的 案例 。 

土地 整治 是 盘活 存量 土地 、 强 化 节约 集约 用 地 、 适 时 补充 耕地 和 提升 土地 产能 的 重要 
手段 ,是 保障 发 展 、 保 护 耕 地 ,统筹 城乡 土地 配置 的 重大 战略 。 土 地 整治 项 目 有 三 个 特点 : 
一 是 项 目 面积 大 ,一 个 省 辖 市 一 年 内 验收 确认 的 土地 开发 整理 项 目 面积 往往 达 几 十 万 亩 ， 
单个 项 目 动 轰 上 千 亩 ,即便 是 实地 测量 项 目 区 面积 都 很 困难 ,更 谈 不 上 对 项 目 区 内 耕地 、 
园地 等 明细 地 类 进行 深入 分 析 ; 二 是 项 目 分 布 散 ,中 央 、` 省 .市 .县 和 乡镇 各 级 政府 都 有 土 
地 整治 项 目的 投入 ,项 目 数量 多 ,由 于 资金 分 配 会 考虑 区 域 平 衡 , 项 目 会 遍布 各 个 区 县 .各 
个 乡镇 甚至 各 个 行政 村 ,单个 项 目 平 均 投 资 比较 小 ,项 目 和 资金 都 非常 分 散 ; 三 是 地 形 复 
杂 、 交 通 不 便 , 很 多 项 目 分 布 在 沟 城 里 、 山 涉 上 ,现场 很 难 到 达 , 项 目 查 看 效率 非常 低 。 在 
这 种 情况 下 ,依靠 丈量 、 观 察 和 计算 等 传统 的 检查 方法 ,根本 无 法 实现 审计 目标 。 在 地 理 
信息 系统 环境 下 ,利用 ArcGis 和 谷歌 地 球 等 软件 ,检查 人 员 可 以 有 效 克 服 上 述 困难 ,通过 
对 项 目 区 域 . 合 适时 点 的 土地 利用 现状 数据 、 合 适时 点 的 遥感 影像 等 数据 进行 分 析 , 并 借 
助 外 部 数据 ,发 现 和 分 析 在 土地 整治 项 目 申报 及 管理 中 存在 的 问题 。 

一 个 审计 项 目 组 对 2008 一 2013 年 某 地 所 有 土地 开发 项 目 每 一 个 地 块 整理 前 后 的 实 
际 状况 进行 了 比 对 。 审 计 人 员 把 审计 分 析 需 要 的 各 类 数据 ,如 数据 库 数据 、Excel 数据 、 
卫星 遥感 数据 有 机 融合 在 一 起 分 析 , 逐 一 比 对 ,发 现 了 该 地 区 土地 开发 项 目 中 存在 的 
问题 。 

一 、 分 析 方 法 

1. 数据 准备 

将 先前 为 检查 目的 采集 的 土地 整治 数据 库 附加 到 SQL Server 中 ,然后 将 分 市 和 分 区 
县 的 土地 整治 数据 表 合 并 为 一 张 数 据 表 。 

2. 通过 ArcGis 连接 数据 库 

(1) 打开 ArcGis, 并 连接 SQL Server 数据 库 ,将 土地 整治 数据 图 斑 导 入 ArcGis 中 ， 
如 图 4-9 所 示 。 

(2) 转换 坐标 系 。 打 开 土 地 整治 图 斑 , 由 于 先前 采集 的 土地 整治 图 斑 使 用 Xian 1980 
坐标 系 , 谷 歌 地 球 影像 图 使 用 WGS1984 坐标 系 ,为 了 使 土地 整治 图 斑 和 影像 图 完美 倒 加 
需要 调整 坐标 系 。 经 配 准 计算 ,Xian1980 与 WGS1984 经 度 偏 移 120 米 , 纬 度 偏 移 50 米 ， 
以 此 为 基准 进行 坐标 转换 ,如 图 4-10 所 示 。 

(3) 筛选 土地 开发 整理 项 目 , 分 区 县 分 项 目 导 出 图 层 。 调 整 坐 标 系 后 ,分 区 县 分 项 目 
将 土地 整治 开发 整理 项 目 按 属性 选择 生成 新 的 图 层 , 具 体操 作 如 图 4-11 所 示 。 

3. 导入 Google Earth , 逐 项 目 逐 地 块 核 实 

(1) 由 ArcGis 生成 Google Earth 可 识别 的 KMZ 图 层 。 将 土地 整治 项 目 图 斑 转 为 
Google Earth 可 识别 的 KMZ 文件 ,具体 操作 如 图 4-12 所 示 。 选 择 “ 工 具 箱 ” 一 “转换 工具 ”一 
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图 4-9 将 数据 导入 软件 中 
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图 4-10 转换 坐标 
































[ Re | 和 $y 
SELECT-FROMdz DPEMNEFE 








X 轴 平移 Gk) 
zZ 轴 平移 ( 米 ) 





-120 


0 


























所 在 行政 区 代 和 -120 了 了 P 
[Re sev ) (sos) co- [fm] 
三 晤 二 己 淘 二 

图 4-11 选择 生成 新 图 层 
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“ 转 为 KML” 一 “图 层 转 KMIL”, 并 选择 该 图 层 后 单 击 “确定 ”按钮 进行 转换 。 
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图 4-12 图 层 转换 
(2) 逐 项 目 逐 地 块 核实 
Q@ 打开 转换 后 的 土地 整治 项 目 图 层 文 件 ,如 图 4-13 所 示 。 双 击 某 文件 即 可 用 
Google Earth 打开 。 


Dn: : 多 和 
菇 取 站 线 历史 记录 





图 4-13 打开 图 层 文件 


G@ 双击 图 层 或 项 目 名 称 可 获得 该 地 块 的 具体 信息 ,包括 整治 项 目 立 项 时 间 、 验 收 时 
间 和 面积 等 ,如 图 4-14 所 示 。 


(3) 通过 时 间 轴 工具 , 即 可 查看 对 比 项 目 实施 前 后 土地 影像 ,如 图 4-15 所 示 。 
二 、 分 析 结 果 
审计 组 将 2008 一 2013 年 被 检查 地 区 所 有 土地 整治 项 目 ( 不 含 高 标准 基本 农田 建设 项 
目 、 农 民 自行 开发 耕地 项 目 ) 逐 一 进行 核实 , 共 包 括 94 个 土地 整治 项 目的 7 695 个 地 块 ， 
总 面积 13 228 公顷 。 数 据 分 析 组 按照 下 述 原 则 判断 是 否 为 问题 图 斑 : 一 是 开发 项 目 验收 
前 后 都 是 耕地 ;二 是 验收 后 还 不 是 耕地 ;三 是 验收 面积 与 实际 开发 面积 不 一 致 。 分 析 结 果 


显示 ,所 有 土地 开发 项 目 中 疑似 问题 项 目 87 个 ,包含 6 599 个 地 块 ,总 面积 10 713 公顷 ， 
人 训 
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图 4-14 获得 地 块 的 具体 信息 
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图 4-15 对 比 项 目 实施 前 后 土地 影像 





占 全 部 开发 总 面积 的 81%。 疑 似 问题 图 斑 又 可 以 分 为 以 下 五 类 。 
1. 开发 整理 前 后 均 为 耕地 ,如 图 4-16 所 示 。A 项 目 验 收 时 间 为 2008 年 ,面积 35.77 公 
需 。 对 比 2006 年 卫 片 ( 左 图 ) 和 2014 年 卫 片 ( 右 图 ) ,此 块 土地 在 开发 整理 前 后 均 为 耕地 。 








图 4-16 开发 整理 前 后 均 为 耕地 
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2. 开发 整理 前 为 耕地 ,开发 整理 后 为 建设 用 地 ,如 图 4-17 所 示 。B 项 目 验收 时 间 为 
2009 年 ,面积 5. 82 公顷 。 对 比 2008 年 卫 片 ( 左 图 ) 和 2014 年 卫 片 ( 右 图 ) ,此 块 土地 在 开 
发 整理 前 为 耕地 ,在 开发 整理 后 变 为 建设 用 地 。 














图 4-17 开发 整理 后 为 建设 用 地 


3. 开发 整理 后 扬 荒 ,如 图 4-18 所 示 。C 项 目 验 收 时 间 为 2009 年 ,面积 1.52 公 顷 。 
对 比 2010 年 卫 片 ( 左 图 ) 和 2014 年 卫 片 ( 右 图 ) ,此 块 土地 在 开发 整理 后 又 扬 为 荒地 。 


图 4-18 开发 整理 后 摆 荒 
4. 开发 整理 前 为 荒地 ,开发 整理 后 亦 为 荒地 ,如 图 4-19 所 示 。D 项 目 验收 时 间 为 


2010 年 ,面积 3.35 公 硕 。 对 比 2009 年 卫 片 ( 左 图 ) 和 2014 年 卫 片 ( 右 图 ) ,此 块 土地 在 开 
发 整理 前 为 荒地 ,在 开发 整理 后 亦 为 荒地 。 





图 4-19 开发 整理 前 后 都 为 荒地 


。 78 。 


第 4 章 大 数据 分 析 的 思维 特征 





5. 开发 整理 项 目 重复 申报 ,如 图 4-20 所 示 。 共 有 三 个 项 目 , 偏 左 侧 虚线 和 白 线 标识 
的 两 个 区 域 为 2009 年 开发 整理 项 目 , 黑 实 线 标识 的 区 域 为 2010 年 开发 整理 项 目 ,这 个 项 
目 与 2009 年 开发 整理 项 目 有 重合 ,表明 项 目 重 复 申 报 ,重复 申报 面积 达 2. 65 公顷 。 





图 4-20 开发 整理 项 目 重复 申报 


审计 组 将 发 现 的 疑似 问题 图 斑 在 地 图 中 以 红色 标记 , 制 成 统一 汇总 的 Excel 表格 , 逐 
一 核实 ,顺利 完成 了 审计 数据 分 析 任务 。 


4.4 特征 发 现 的 一 般 过 程 


所 谓 过 程 , 是 指 事物 进行 或 事物 发 展 所 经 过 的 程序 。 特 征 发 现 的 一 般 过 程 是 指 为 开 
展 数 据 分 析 实 施 的 步骤 、 程 序 ,包括 特征 枚 举 、 特 征 捕 提 和 特征 分 析 三 个 步骤 。 特 征 发 现 
的 一 般 过 程 如 图 4-21 所 示 。 

需要 强调 的 是 特征 发 现 是 从 分 析 性 审计 中 间 表 开始 的 ,是 在 分 析 性 中 间 表 的 基础 上 
进行 数据 分 析 、 特 征 发 现 的 过 程 。 至 于 形成 分 析 性 中 间 表 的 方法 和 过 程 则 不 再 熬 述 ,读者 
可 参考 《审计 分 析 模 型 算法 (第 2 版 ))( 刘 汝 粳 , 北 京 ,清华 大 学 出 版 社 ) 等 书籍 。 

1. 特征 枚 举 

特征 枚 举 就 是 在 特征 发 现 过 程 中 首先 要 尽量 列举 可 能 的 特征 表现 。 特 征 枚 举 需要 一 
定 的 经 验 积累 ,就 是 要 总 结 出 什么 样 的 线索 会 通过 什么 样 的 特征 和 方式 表现 出 来 。 

但 是 有 一 种 情况 例外 , 即 数 据 挖掘 方法 。 海 量 数据 到 底 会 表现 出 什么 特征 ,数据 之 
间 会 有 什么 联系 ,在 数据 挖掘 之 前 是 不 知道 的 ,所 以 在 利用 数据 挖掘 的 特征 发 现 方法 
时 ,我 们 事前 是 无 法 进行 特征 枚 举 的 。 除 此 以 外 ,其 他 特征 发 现 方法 都 应 该 首先 进行 
特征 枚 举 。 

2. 特征 捕捉 

传统 的 财政 财务 收 支 及 经 营 管 理 等 经 济 活动 是 以 书面 形式 记载 和 反映 的 ,各 种 违法 
违纪 问题 都 会 以 书面 的 形式 留 下 痕迹 。 在 信息 化 条 件 下 ,电子 数据 成 为 财政 财务 收 支 和 
其 他 经 济 活动 的 主要 记载 和 反映 形式 ,违法 违纪 问题 的 痕迹 隐藏 在 电子 数据 中 。 如 何 捕 
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oo YS 


数值 型 数据 非 数值 型 数据 












基础 性 审计 


分 析 性 审计 中 间 表 
特征 枚 举 
特征 捕捉 


特征 数据 表 | 


图 4-21 特征 发 现 的 一 般 过 程 


h 间 表 





特征 分 析 





捉 到 这 些 特征 ? 

特征 捕捉 就 是 通过 运用 计算 机 的 查询 功能 或 多 维 分 析 技 术 等 相应 方法 来 寻找 符合 相 
关 特征 的 数据 ,或 验证 数据 的 发 展 趋势 是 否 与 通常 的 规律 相 一 致 的 过 程 。 数 据 特征 隐藏 
在 海量 的 数据 中 ,特征 捕捉 是 寻找 、 捕 提 并 显 性 化 数据 特征 的 过 程 。 

3. 特征 分 析 

特征 分 析 就 是 根据 线索 分 析 取 证 。 通 过 特征 枚 举 和 特征 捕捉 找 出 了 符合 特征 表现 的 
数据 ,对 这 些 数 据 还 需要 进一步 分 析 解 读 其 中 的 意义 。 

实际 上 ,特征 捕捉 和 特征 分 析 是 两 个 互 有 渗透 ,不 能 截然 分 开 的 过 程 ,特征 捕捉 前 需 
要 进行 分 析 , 如 枚 举 的 特征 应 该 从 哪些 数据 入 手 才 能 进行 有 效 的 捕 提 、 应 该 用 什么 方法 才 
能 有 效 地 发 现 特征 等 。 特 征 捕 提 后 更 需要 进行 进一步 的 分 析 , 因 为 有 异常 .符合 特征 表现 
的 数据 是 否 有 问题 ,与 之 相关 的 经 济 活 动 是 否 违纪 违规 ,还 得 依赖 分 析 人 员 结 合法 律 法 规 
进行 分 析 判 断 , 需 要 引入 分 析 人 员 的 知识 与 经 验 。 视 频 、 音 频数 据 的 特征 发 现 又 有 适合 自 
身 数据 特征 的 新 的 特点 。 随 着 人 工 智能 技术 的 深入 发 展 ,智能 视频 监控 分 析 软 件 的 功能 
也 越 来 越 强大 。 例 如 ,用 摄像 头 实 时 录像 ,用 鼠标 点 击 一 个 图 像 中 的 某 一 个 人 ,这 个 人 的 
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特征 ,如 脸型 .眼睛 、 身 高 ,衣服 的 特征 就 被 及 时 抓 取 ,进入 特征 库 , 然 后 这 个 人 就 被 实时 跟 
踪 。 这 种 动态 的 特征 发 现 ,打开 了 一 个 更 为 广阔 的 应 用 空间 。 


参考 文献 


刘 汝 炬 ,等 .审计 线索 的 特征 发 现 LMJ. 北京 : 清华 大 学 出 版 社 ,2009. 
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本 节 通 过 两 个 案例 演示 用 Tableau 对 数据 进行 可 视 化 分 析 的 过 程 ,第 一 个 案例 为 与 
审计 业务 相关 的 不 良 贷 款 分 析 , 第 二 个 案例 为 保险 公司 客户 索赔 与 赔付 分 析 。 通 过 这 两 
个 案例 演示 可 视 化 数据 分 析 在 不 同 领 域 的 应 用 。 

本 章 案 例 均 使 用 Tableau 10. 0 版 本 进行 分 析 演 示 。 


5.1 不 良 贷款 分 析 


贷款 业务 是 目前 各 商业 银行 最 基本 的 一 项 经 营业 务 ,数量 多 ,涉及 内 容 广 ,是 商业 银 
行 资 金 运用 的 重要 组 成 部 分 。 大 多 数 商 业 银 行 的 收入 主要 来 源 于 其 发 放 的 贷款 ,利润 则 
在 很 大 程度 上 取决 于 信贷 业务 量 ,信贷 资产 质量 的 好 坏 和 业务 量 增长 的 快慢 直接 关系 到 
银行 的 生存 与 发 展 。 

银行 在 发 放贷 款 时 需要 考虑 贷款 人 的 偿还 能 力 , 尽 可 能 减少 不 良 贷款 的 风险 。 本 案 
例 以 法 人 贷款 为 例 ,分 析 找 出 不 良 贷款 多 或 不 良 贷款 率 高 的 行业 、 地 区 及 其 经 济 类 型 等 ， 
为 以 后 对 贷款 发 放 的 监控 提供 科学 的 依据 ,降低 不 良 贷款 数量 。 

本 案例 使 用 的 数据 源 为 SQL Server 中 的 "贷款 数据 库 ”, 该 数据 库 包含 的 数据 表 及 结 
构 如 下 : 

。 主 表 _ 法 人 借款 凭证 表 ( 机 构 编 码 , 市 行 名 称 ,支行 名 称 ,支行 管辖 机 构 名 称 , 客 户 
代码 ,借款 凭证 编号 ,贷款 类 别 大 类 ,贷款 类 别 明细 分 类 ,贷款 性 质 分 类 , 币 种 , 借 
款 金额 ,借款 日 期 ,本 凭证 贷款 余额 ,担保 方式 大 类 ,担保 方式 明细 ,贷款 四 级 分 类 
大 类 ,贷款 四 级 分 类 明细 ,贷款 五 级 分 类 , 增 量 标志 ) 

附 表 _ 法 人 基本 信息 表 ( 客 户 代 码 ,客户 名 称 , 法 人 代码 ,行业 分 类 1, 行 业 分 类 2， 
经 济 类 型 ,经 营 状 况 ) 

代码 表 _ 经 济 类 型 代码 表 ( 经 济 类 型 大 类 ,经 济 类 型 大 类 名 称 , 经 济 类 型 明细 ,经 济 
类 型 明细 名 称 ) 

代码 表 _ 行 业 分 类 代码 表 ( 行 业 代码 ,行业 名 称 ) 


5.1.1 数据 准备 


1. 连接 数据 源 
在 Tableau 中 建立 数据 源 窗口 ,选择 连接 到 “Microsoft SQL Server”, 在 选择 数据 库 
部 分 选择 “贷款 数据 库 ”。 此 时 连接 数据 源 窗口 如 图 5-1 所 示 。 
(1) 选择 数据 表 及 表 连 接 方式 
在 “ 表 ” 列 表 框 中 首先 分 别 双 击 “ 主 表 _ 法 人 借款 凭证 表 ”“ 附 表 _ 法 人 基本 信息 表 ”, 然 
站 
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后 双击 “代码 表 _ 经 济 类 型 代码 表 ”, 在 弹出 的 “连接 ”窗口 中 ,在 左边 的 列表 框 中 选择 “ 附 表 
_ 法 人 基本 信息 表 ” 中 的 “经 济 类 型 ”, 在 右边 的 “代码 表 _ 经 济 类 型 代码 表 ” 列 表 框 中 选择 
“经 济 类 型 明细 名 称 ”, 设 置 好 后 的 情形 如 图 5-2 所 示 。 
文件 ”数据 (D) 服务 器 (S$) 窗口 (N) 帮助 (HH) 
党 蕊 沪 因 | 局 

贷款 数据 库 


已 沽 多 Microsoft SQL Server 








(local) 


























障 入 表 名 称 

图 主 表 法 人 借款 凭证 表 
图 代码 表 经 济 类 型 代码 表 
图 代 枉 表 行业 分 类 代码 表 
转 附 表 法 人 基本 信息 表 














国 | 三。 排序 字 生 








区 新 自 定义 SQL 


图 5-1 选择 好 连接 的 数据 库 后 的 窗口 样式 


x 





右 侧 完全 外 部 


代码 表 _ 经 济 类 型 代码 表 
和 玛 济 类 型 明细 





图 5-2 设置 法 人 基本 信息 表 与 经 济 类 型 代码 表 之 间 的 连接 字段 
最 后 双击 “ 表 ” 列 表 框 部 分 的 “代码 表 _ 行 业 分 类 代码 表 ”, 在 弹出 的 “连接 ”窗口 中 ,在 
左边 的 列表 框 中 选择 “ 附 表 _ 法 人 基本 信息 表 ” 中 的 “行业 分 类 2”, 在 右边 的 “代码 表 _ 经 济 
类 型 代码 表 ” 列 表 框 中 选择 “行业 代码 ”, 设 置 好 后 的 情形 如 图 5-3 所 示 。 











匡 接 Xx 
| @) ] 人 ©@ 
内 部 左 柚 右 柚 误 全 外 部 
数据 源 代码 表 _ 行 业 分 类 代码 表 


行业 分 类 2 = 行业 代码 





图 5-3 设置 法 人 基本 信息 表 与 行业 分 类 代码 表 之 间 的 连接 字段 


“ 3 * 
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设置 好 数据 源 后 各 表 的 连接 形式 如 图 5-4 所 示 。 


(主要 法 人 信 吉 和 下 和 ， 代 现 志 经 济 尖 型 代码 表 
lp 附 表 法 人 基本 信息 表 , 


图 5-4 设置 好 表 连 接 条 件 后 的 连接 样式 


























(2) 筛选 数据 

由 于 我 们 只 分 析 币 种 为 "人民币 ” 且 增 量 标志 不 为 4 和 6 的 贷款 数据 ,因此 在 进行 数 
据 分 析 之 前 ,首先 对 数据 源 中 的 数据 进行 筛选 。 筛 选 方法 如 下 : 

单 击 建立 数据 源 窗 口 右上 角 的 “筛选 ?部 分 的 臣 需 号 ,弹出 如 图 5-5 所 示 的 “编辑 数据 
源 筛 选 器 窗口。 在 此 窗口 中 单 击 * 添 加 ”按钮 ,进入 如 图 5-6 所 示 的 “添加 筛选 器 ”窗口 。 


























编辑 数据 尖 竺 迁 器 二 
馈 迁 名 详细 信息 
| 
| 谣 加 .… 纺 绒 .， | | 。 博 除 
| ET 




















图 5-5 “编辑 数据 源 篇 选 器 "窗口 





























经 济 类 型 明细 




















图 5-6 选中 “ 币 种 ”字段 


在 “添加 筛选 器 ”窗口 的 “选择 字段 ”列表 框 中 选中 “ 币 种 ”, 单 击 “ 确 定 ” 按 钮 ,进入 如 
图 5-7 所 示 的 “筛选 器 [ 币 种 ]” 窗 口 ,在 此 窗口 中 勾 选 “人 民 币 ”选项 。 单 击 “ 确 定 ” 按 钮 , 关 
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闭 “筛选 器 ”窗口 。 


算 选 器 [ 币 种 ] 














常规 | 过 避 符 | 条 件 | 项 部 








图 从 列表 中 选 抒 (S) @ 自 定义 位 列表 (C) 辕 使 用 全 部 (U) 



























































ee 
习 回 回转 回回 回回 
关 民 
挤 罚 省 
录 









































摘要 

闻 娟 : [ 币 种 ] 

所 选 内 容 : 选 抒 了 1 个 位 ( 共 9 个 ) 
通配符 (W): 全 部 

条 件 D): 无 

限制 M): 无 


La |] La ][ ws] 


| 全 部 中] [无 oO) | 国 排除 (X) 
































图 5-7 勾 选 "人 民 币 ?选项 


按 此 方法 设置 “ 增 量 标志 ”的 筛选 条 件 : 增 量 标志 二 二 4 and 增 量 标志 二 二 6 
设置 好 筛选 条 件 后 的 “编辑 数据 源 筛选 器 ?形式 如 图 5-8 所 示 。 单 击 “确定 ”按钮 关闭 
该 窗口 ,完成 数据 源 的 筛选 。 





编辑 数据 源 往 选 器 
符 选 器 详细 信息 
| 币 种 保留 人 民 币 
增 量 标志 排除 4 与 6 























确定 ] [取消 























图 5-8 设置 好 数据 筛选 条 件 后 的 筛选 器 窗口 


2. 类 型 转换 

由 于 源 数据 中 的 “借款 日 期 ?为 字符 串 类 型 ,为 便于 按 日 期 进行 数据 分 析 ,将 “借款 日 
期 ?类 型 改 为 “日 期 ”。 

3. 重 命名 字段 

为 方便 分 析 和 理解 数据 ,将 “本 凭证 贷款 余额 * 重 命名 为 “贷款 总 额 ”。 
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4. 创建 计算 字段 
由 于 主要 是 分 析 不 良 贷 款 和 不 良 贷款 率 ,而 这 两 类 数据 在 “ 主 表 _ 法 人 借款 凭证 表 ” 中 
是 通过 贷款 类 别 来 标识 的 ,为 分 析 方便 ,创建 两 个 计算 字段 : 不 良 贷 款 、 不 良 贷款 率 。 


(1) 不 良 贷款 = ”case [贷款 五 级 分 类 ] 


else 0 
end 


case [贷款 五 级 分 类 ] 


case [贷款 五 级 分 类 ] 
when ' 损 失 ' then [贷款 总 额 ] 
else 0 


end 


(2) 不 良 贷 款 率 二 SUM( 不 良 贷 款 )/SUM( 贷 款 总 额 ) 

5. 构建 层次 结构 

(1) 担保 方式 : 担保 方式 大 类 一 担保 方式 明细 

(2) 经 济 类 型 : 经 济 类 型 大 类 名 称 一 经 济 类 型 明细 名 称 
(3) 行业 分 类 : 行业 分 类 1 一 行业 名 称 

(4) 贷款 类 别 : 贷款 类 别 大 类 一 贷款 类 别 明细 分 类 

(5) 贷款 四 级 分 类 : 贷款 四 级 分 类 大 类 一 贷款 四 级 分 类 明细 
(6) 银行 : 市 行 名 称 一 支行 名 称 一 支行 管辖 机 构 名 称 


5.1.2 各 银行 的 不 良 贷款 情况 分 析 


1. 把 握 总 体 : 各 银行 的 贷款 总 额 及 不 良 贷款 情况 

分 析 目 标 : 把 握 各 银行 的 总 体 贷款 情况 及 不 良 贷款 情况 ,以 及 两 者 的 宏观 对 比 。 

分 析 实 现 过 程 : 

(1) 将 “市 行 名 称 ” 拖 放 到 “ 列 ” 功 能 区 ,将 “贷款 总 额 * 和 “不 良 贷 款 ” 分 别 拖 放 到 “ 行 ” 
功能 区 。 

(2) 单 击 “ 行 ”功能 区 中 “不 良 贷款 ”的 下 三 角 按钮 ,在 弹出 的 菜单 中 选择 “ 双 轴 ”。 在 
右 侧 纵 坐 标 上 右 击 鼠标 ,在 弹出 的 菜单 中 选择 “同步 轴 ”。 

(3) 在 “标记 ” 卡 中 ,将 “贷款 总 额 " 和 “不 良 贷 款 ” 的 图 形 均 改 为 “区 域 ”。 

生成 的 分 析 图 如 图 5-9 所 示 。 从 图 中 可 以 很 清晰 地 了 人 解 各 银行 的 贷款 总 额 与 不 良 食 
款 的 对 比 。 

(4) 将 维度 中 的 “借款 日 期 * 拖 放 到 “筛选 器 ”, 在 弹出 的 “筛选 器 字段 ”窗口 中 ,选中 
“年 ”( 如 图 5-10 所 示 ) ,我 们 这 里 按 年 分 析 不 良 贷 款 情况 。 单 击 * 下 一 步 ? 按 钮 ,弹出 如 
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页 面 证 列 
三 行 
第 选 器 工作 表 20 
市 行 名 称 

标记 

Y 全 部 [a 206 -206 
Y 总 计 ( 售 款 总 钢 加 

和 ^ 总计 (F 良 绕 多 AM 

[Mes 156 15G 
. 

33 加 浙 
颜色 | 大 小 | 标签 | | 瑟 六 

J | 半 多 
oo 已 兵 
详细 信息 工具 提示 3 99 
加 汪 度 旦 名 
度量 名 称 县 
国 不 良 贷 交 
国 贷 雪 总 硕 
人 市 分 行 日 市 分 行 C 市 分 行 。D 市 分 行 。E 市 分 行 F 市 分 行 。 G 市 分 行 。H 市 分 行 1 市 分 行 。 J 市 分 行 。 市 分 行 

















图 5-9 各 银行 贷款 总 额 与 不 良 贷款 对 比 


图 5-11 所 示 的 “筛选 器 ”窗口 ,在 此 窗口 中 色 选 “2010” 前 的 复 选 框 ( 假 设 分 析 2010 年 的 贷 


款 情 况 )。 单 击 “ 确 定 ” 关 闭 该 窗口 。 














大 提 间 井 间 间 间 俐 | 
HH 加 六 名 性 近 
划 基 二 要 





网 





























图 5-10 在 筛选 器 中 选中 “年 ” 


(5) 单 击 “ 筛 选 器 ? 窗 格 中 “借款 日 期 ”的 下 三 角 按 钮 ,在 弹出 的 菜单 中 选择 "显示 筛选 
器 ”, 将 对 借款 日 期 的 筛选 显示 在 分 析 窗口 中 ,便于 指定 要 分 析 的 年 份 。 
最 终 的 分 析 窗 口 如 图 5-12 所 示 , 可 以 勾 选 多 个 年 份 来 分 析 若干 年 中 各 银行 贷款 总 额 


与 不 良 贷款 情况 。 
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常规 条 件 | 项 部 


图 从 列表 中 选 扼 (S) @ 自 定 义 位 列表 (C) @ 使 用 全 部 (U) 


才 入 搜索 文本 
加 2000 
2001 
2002 
2003 





































































































2010 
2011 











回力 回回 回回 回回 回回 回 


























全 部 ] [无 O) 回 排队 00) 


摘要 

闻 娟 : [借款 日 期 年 ] 

所 选 内 容 : ”选择 了 1 个 位 ( 共 17 个 ) 
通配符 (W): 全 部 

条 件 (D): 无 

限制 (M): 无 


Er Ca |] [am |] 















































图 5-11 勾 选 要 分 析 的 年 份 (2010) 





















| 年 (借款 日 期 ) 
癌 全 间 ) 
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Wm 口 oo 
癌 2001 
口 2002 
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图 5-12 在 指定 年 份 中 各 银行 贷款 总 额 与 不 良 贷款 对 比 


2. 了 解 趋势 : 各 银行 不 良 贷款 的 历史 变化 情况 
分 析 目 标 : 分 析 若 干 年 中 各 银行 的 不 良 贷款 变化 情况 ,以 了 解 不 良 贷款 的 总 体 趋势 
是 上 升 还 是 下 降 。 
分 析 实 现 过 程 : 
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新 建 一 个 工作 表 ,将 “借款 日 期 ? 拖 放 到 “* 列 ?功能 区 ,并 将 其 粒度 设置 为 “年 ,将 "不良 
贷款 ” 拖 放 到 “ 行 ”功能 区 ,将 “分 行 名 称 ” 拖 放 到 “标记 ” 卡 中 的 “颜色 ”上 ,生成 的 分 析 图 如 
图 5-13 所 示 。 

从 图 中 可 以 看 到 ,各 银行 的 不 良 贷 款 在 2008 年 和 2009 年 达到 高 峰 , 以 后 逐年 减少 。 
在 2008 年 和 2009 年 的 不 良 贷 款 中 以 下 市 分 行 和 G 市 分 行 尤 为 突出 ,不 良 贷款 非常 多 。 
后 面 可 以 进一步 分 析 2008 年 和 2009 年 下 市 分 行 与 G 市 分 行 中 到 底 哪些 支行 和 营业 所 
的 不 良 贷 款 发 放 比 较 多 。 

















图 5-13 各 银行 不 良 贷款 的 历史 变化 情况 


3. 了 解 趋势 : 各 银行 不 同 季度 的 不 良 贷款 变化 情况 

分 析 目 标 : 分 析 指 定 的 若干 年 份 中 ,每 个 市 行 每 个 季度 的 不 良 贷款 变化 情况 。 

分 析 实 现 过 程 : 

新 建 一 个 工作 表 。 将 “借款 日 期 ” 拖 放 到 “ 行 ” 功 能 区 ,设置 其 粒度 为 “年 "。 将 “借款 年 
份 ” 拖 放 到 “筛选 器 ”, 并 选中 “显示 往 选 器 ”, 显 示 出 年 份 第 选 器 ,选中 “2008”“2009” 和 
“9102。 

将 “市 行 名 称 ” 和 "不 良 贷款 分别 拖 放 到 “* 列 ?功能 区 。 

展开 “ 列 ” 功 能 区 中 的 “年 (借款 日 期 )” 到 “季度 ”, 并 将 “季度 (借款 日 期 )” 拖 放 到 “年 
(借款 日 期 )” 的 前 边 。 

最 终 产 生 的 分 析 图 如 图 5-14 所 示 。 从 图 中 可 以 看 出 ,2008 一 2010 年 ,各 市 行 基本 都 
是 第 4 季度 的 不 良 贷款 额 呈 下 降 趋势 ,而 第 2 季度 变化 相对 比较 大 。 

4. 锁定 重点 : 不 良 贷款 率 高 的 银行 

分 析 目 标 : 锁定 不 良 贷 款 多 及 不 良 贷 款 率 高 的 银行 ,以 便 对 这 些 银行 进行 重点 考察 。 

分 析 实 现 过 程 : 

(1) 设置 分 析 视 图 

新 建 一 个 工作 表 。 在 “标记 ” 卡 中 ,图 形 选 择 “ 方 形 ” ,将 “市 行 名 称 ” 拖 放 到 “标签 ”, 将 
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“不 良 贷款 ” 拖 放 到 “大 小 ”和 “标签 ”, 将 “不 良 贷 款 率 ” 拖 放 到 “颜色 ”和 “标签 ”。 
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图 5-14 各 银行 不 同 季 度 的 不 良 贷款 变化 趋势 


(2) 设置 “不 良 贷款 率 ” 的 显示 格式 ,让 其 按 百分比 形式 显示 

单 击 “标签 "上 的 “聚合 (不 良 贷款 率 ) ”的 下 三 角 按钮 ,在 弹出 的 菜单 中 选择 “设置 格 
式 ”, 在 出 现 的 设置 格式 窗 格 ( 如 图 5-15 所 示 ) 中 ,选中 “区 ”选项 卡 , 单 击 “ 默 认 值 ”部 分 的 
“数字 ”下 拉 列 表 框 ,弹出 如 图 5-16 所 示 的 窗口 ,在 该 窗口 中 ,在 左边 选择 “百分比 ”, 在 右 
边 的 “小 数位 数 ” 部 分 ,设置 小 数位 数 为 2。 




































































自动 百分比 

数字 (标准 ) 小 数位 数 (E): 
数字 ( 自 定义 ) 
利 ( 标 准 ) 2 站 
货币 ( 自 定义 ) 
科学 型 
百分比 
自 定义 

字体 : Arial, 10pt 

对 齐 : 自动 

数字 : 12345600.00% 

图 5-15 设置 不 良 贷款 率 的 显示 格式 图 5-16 设置 百分比 显示 形式 


(3) 设置 筛选 条 件 

将 “借款 日 期 ” 拖 放 到 “筛选 器 ” ,设置 选中 条 件 为 “年”, 并 选中 “显示 筛选 器 ” ,设置 “ 借 
款 日 期 ”筛选 条 件 的 显示 格式 为 “ 单 选 (下 拉 列 表 )”。 

最 终 的 分 析 结 果 如 图 5-17 所 示 ,该 图 显示 了 2010 年 各 银行 的 不 良 贷 款额 及 不 良 贷 
款 率 情况 。 图 中 方形 的 大 小 代表 了 不 良 贷 款额 的 多 少 , 方 形 越 大 ,不 良 贷 款额 越 高 ;颜色 
的 深浅 代表 了 不 良 贷 款 率 的 高 低 ,颜色 越 深 ,不 良 贷款 率 越 高 。 

从 图 5-17 可 以 看 到 ”“F 市 分 行 2 虽然 不 良 贷款 额 很 高 (307 957 327) ,但 其 不 良 贷款 率 
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页 面 说 列 


三 行 





i 年 (借款 日 其 
307857327 

















图 5-17 各 银行 不 良 贷款 额 及 不 良 贷款 率 对 比 


并 不 高 (20. 89%) ,而 “K 市 分 行 ?的 不 良 贷款 额 并 不 高 (72 481 832) ,但 其 不 良 贷款 率 却 
很 高 ,达到 了 100. 00%。 

通过 在 筛选 器 中 指定 不 同 的 借款 年 份 , 可 分 别 查看 每 年 各 银行 的 不 良 贷 款额 和 不 良 
贷款 率 。 

5. 锁定 重点 : 各 银行 的 不 良 贷款 占 比 

分 析 目 标 : 分 析 各 市 行 的 不 良 贷款 在 当年 总 的 不 良 贷 款 中 所 占 的 比例 , 找 出 不 良 贷 
款 占 比 高 的 银行 ,便于 后 续 对 这 些 银行 进行 深入 分 析 。 

分 析 实 现 过 程 ; 

(1) 创建 计算 字段 

。 借款 年 份 =year( 借 款 日 期 ) ,并 将 "借款 年 份 ?转换 为 维度 属性 。 

。 按 年 不 良 贷 款额 ={ fixed [借款 年 份 ] : sum([ 不 良 贷款 ])} 

。 各 行 不 良 贷款 占 比 二 sum([ 不 良 贷 款 ])/sum([ 按 年 不 良 贷 款额 ]) 

(2) 设置 分 析 视 图 

新 建 一 个 工作 表 。 在 “标记 ” 卡 上 ,选择 图 形 为 “ 饼 图 ”, 将 “市 行 名 称 ” 分 别 拖 放 到 “ 颜 
色 ” 和 “标签 "上 ,将 “各 行 不 良 贷款 占 比 ”分 别 拖 放 到 “角度 ”和 “标签 ”上 。 

修改 “各 行 不 良 贷 款 占 比 ”的 显示 格式 为 “百分比 ”, 小 数 点 后 2 位 。 

(3) 设置 筛选 条 件 

将 “借款 年 份 ” 拖 放 到 “筛选 器 ”, 并 显示 筛选 器 , 勾 选 “2009” 年 (假设 希望 查看 2009 年 
各 市 行 的 不 良 贷款 占 比 情况 ) 。 

分 析 结 果 如 图 5-18 所 示 ,从 图 中 可 以 看 到 ,“F 市 分 行 ? 和 “G 市 分 行 ” 的 不 良 贷款 占 
比较 多 ,分别 占 到 了 当年 总 的 不 良 贷款 的 17. 42% 和 14. 64%。 

(4) 更 进一步 ,我 们 可 以 只 筛选 出 不 良 贷款 占 比 最 多 的 前 N 家 市 行 ,比如 占 比 最 高 的 
前 5 家 市 行 ,这 可 通过 设置 参数 实现 。 
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图 5-18 各 市 行 的 不 良 贷款 占 比 分 析 


在 “市 行 名 称 * 上 右 击 鼠 标 , 在 弹出 的 菜单 中 选择 “创建 >“ 和 集 ”, 弹 出 如 图 5-19 所 示 
的 “创建 集 ” 窗 口 。 在 该 窗口 中 ,在 “名 称 ” 文 本 框 中 输入 集 的 名 称 “ 占 比 高 的 市 行 ”, 单 击 
“顶部 ”选项 卡 。 




















名 称 (N): 占 比 高 的 市 行 
© 无 N) 

加 接 字 和 银 (F): 

项 部 7] 
各 行 不 良 贷款 占 比 
图 按 公式 (0): 
| 





















































图 5-19 “创建 集 ? 窗 口 


在 “创建 集 ” 窗 口 的 “顶部 ”选项 卡 中 ,选择 “ 按 公 式 ” 单 选 按钮 ,并 在 “依据 ”列表 框 中 选 
择 “ 创 建新 参数 ”。 
在 弹出 的 “创建 参数 ”窗口 (如 图 5-20 所 示 ) 中 ,在 “名 称 ” 文 本 框 中 输入 参数 的 名 称 
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名称 N): 占 出 苛 N 
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数据 类 型 (TD) [整数 








当前 位 (V): 15 





显示 格式 (EF): 自动 


允许 的 值 (W) 回 全 部 (A) 回 列表 LL) 图 范围 B) 






































图 5-20 “创建 参数 "窗口 


(这 里 是 : 占 比 前 N) ,在 “当期 值 > 文本 框 中 设置 当期 值 为 5, 表示 默认 显示 不 良 贷 款 占 比 
高 的 前 5 家 市 行 。 在 “ 值 范围 部 分 设置 最 小 值 为 1, 最 大 值 为 11( 因 为 在 贷款 数据 中 只 有 
11 家 不 同 的 市 行 )。 单 击 “ 确 定 ” 按 钮 ,关闭 “创建 参数 ”窗口 , 接 下 来 单 击 “ 创 建 集 ?窗口 上 
的 “确定 ”按钮 ,完成 对 集 的 创建 。 

将 集 “ 占 比 高 的 市 行 ” 拖 放 到 “筛选 器 ”中 , 单 击 参 数 “ 占 比 前 N” 的 下 三 角 按钮 ,在 弹出 
的 菜单 中 选择 “显示 参数 控件 ”。 分 析 视 图 的 形式 如 图 5-21 所 示 。 

在 如 图 5-21 所 示 的 分 析 图 中 ,通过 调整 “ 占 比 前 N” 参 数控 件 可 设置 显示 不 良 占 比 高 
的 前 若干 家 市 行 。 通 过 “借款 年 份 ”筛选 条 件 ,可 查看 指定 年 份 中 不 良 贷款 高 的 前 若干 家 
责 行 。 
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图 5-21 不 良 贷款 占 比 前 5 家 银行 及 占 比 情况 
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6. 深入 分 析 : 发 放 不 良 贷款 多 的 分 支 机 构 

分 析 目 标 : 深入 分 析 不 良 贷款 多 的 两 个 市 行 管辖 的 所 有 分 支 机 构 的 不 良 贷款 发 放 

从 图 5-13 和 图 5-17 可 看 到 2008 年 和 2009 年 不 良 贷款 达到 高 峰 , 而 这 两 年 又 以 “F 
市 银行 ?和 “G 市 银行 ”的 不 良 贷款 最 多 。 

分 析 实 现 过 程 

(1) 设置 分 析 视 图 

新 建 一 个 工作 表 。 将 “支行 名 称 ” 拖 放 到 “标记 ” 卡 的 “颜色 ”和 “标签 ”, 将 “不 良 贷款 ” 
拖 放 到 “大 小 ”和 “标签 ”, 将 “支行 管辖 机 构 名 称 ” 拖 放 到 “标签 ”。 

在 “智能 显示 ” 卡 上 选择 “填充 气泡 图 ”。 

(2) 设置 筛选 条 件 

将 “市 行 名 称 ”“ 借 款 日 期 “不 良 贷 款 率 ”“ 不 良 贷 款 ” 分 别 拖 放 到 “筛选 器 ”中 ,并 显示 

设置 筛选 条 件 : 

。 市 行 名 称 =F 市 分 行 

。 借款 日 期 二 2008 年 

。 不 良 贷款 率 之 一 0.5 

。 不 良 贷款 总 额 之 一 40,000,000 

生成 的 分 析 视 图 如 图 5-22 所 示 。 


页 面 讲 列 





国 r 市 F07 支 二 。 国 
图 F 市 F11 支 行 














图 5-22 不 良 贷款 额 高 的 分 支 机 构 


在 分 析 视 图 上 右 击 鼠标 ,在 弹出 的 菜单 中 选择 “查看 数据 ,可 以 以 表格 形式 查看 视图 
中 的 数据 ,如 图 5-23 所 示 。 

单 击 图 5-23 中 的 “基础 ?选项 卡 ,可 对 数据 进行 钻 取 , 查 看 对 应 的 更 详细 数据 , 如 
图 5-24 所 示 。 单 击 图 5-24 上 的 “全 部 导出 ”按钮 ,可 将 数据 导出 到 Excel 格式 的 文件 中 。 
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显示 别 儿 (S) 复制 (C) | 

















支行 名 称 支行 管辖 机 构 匀称 不 良 贷款 
F 市 矿区 支行 支行 营业 室 110,002,134.43 
F 市 F22 支 行 ”支行 营业 室 41,221,905.24 
| F 市 F19 支 行 ”支行 营业 室 69,951,728.67 
| F 市 F18 支 行 ”支行 营业 这 135,377,867.68 
F 市 F17 支 行 ”支行 营业 室 79,080,431.92 
F 市 F13 支 行 ”专项 客户 部 57,537,286.28 
F 市 F11 支 行 ”客户 经 理 部 92,667,022.01 
F 市 F07 支 行 ”支行 营业 这 50,025,761.73 


F 市 F03 支 行 ”支行 营业 室 86,918,998.76 
























































744 行 二 ” 园 s 示 列 科 (8) 回 王 示 所 有 闻 妆 (E) [EC | (ewswe))] 
借款 日 期 ” 市 行 名 称 ”支行 和 名称 支行 管辖 机 构 名 称 。 贷款 五 级 分 类 不 良 贷款 不良 贷款 率 货款 总 家 
2008/3/30 FF 市 分 行 。”F 市 矿区 支行 支行 营业 室 可 疑 200,000.00 1.00000 200,000.00 国 
2008/4/20 。 F 市 分 行 ” F 市 F03 支 行 ”支行 营业 室 扰 类 800,000.00 1.00000 800,000.00 
2008/11/25 F 市 分 行 。F 市 F07 支 行 ” 支 行营 业主 质 类 1,763,000.00 1.00000 1,763,000.00 
2008/11/25 F 市 分 行 。” F 市 F07 支 行 ”支行 营业 室 格 失 1,000,000.00 1.00000 1,000,000.00 
2008/46 。 F 市 分 行 ”F 市 F19 支 行 ”支行 营业 室 于 类 33,500.00 1.00000 33,500.00 
2008/46 。F 市 分 行 ”F 市 F19 支 行 。 支 行营 业主 损 类 200,518.00 1.00000 200,518.00 
2008/46 。F 市 分 行 ”F 市 F19 支 行 。” 支 行营 业主 损失 10,540.00 1.00000 10,540.00 
2008/4/6 。。F 市 分 行 ”F 市 F19 支 行 ”支行 营业 室 想 类 698,452.00 1.00000 698,452.00 
2008/46 。F 市 分 行 ”F 市 F19 支 行 ”支行 营业 室 损 类 40,000.00 1.00000 40,000.00 
2008/46 。 F 市 分 行 ”F 市 F19 支 行 ”支行 营业 室 Ea 33,420.00 1.00000 33,420.00 

上 “2008/4/6 。 F 市 分 行 。”F 市 F19 支 行 ”支行 营业 室 顿 兴 849,392.00 1.00000 84939200 ~ 
| LL 捕 要 | 基础 744 行 











图 5-24 查看 详细 数据 


5.1.3 各 经 济 类 型 的 企业 的 不 良 贷款 情况 分 析 


1. 锁定 重点 : 不 良 贷款 多 的 企业 的 经 济 类 型 

分 析 目 标 : 分 析 不 良 贷 款 多 的 企业 的 经 济 类 型 ,锁定 需要 深入 分 析 的 经 济 类 型 。 

分 析 实 现 过 程 : 

(1) 设置 分 析 视 图 

新 建 一 个 工作 表 。 将 “借款 日 期 "和 “不 良 贷 款 ” 拖 放 到 “ 列 ” 功 能 区 ,将 “经 济 类 型 大 类 

名 称 " 拖 放 到 *“ 行 "功能 区 和 标记" 卡 中 的 “颜色 ”上 将 “不 良 贷 款 ” 拖 放 到 “标记 ” 卡 的 “ 标 
签 ” 上 。 

(2) 设置 筛选 条 件 

将 “借款 年 份 ” 计 算 字 有 段 拖 放 到 “筛选 器 ”, 并 选中 “显示 筛选 器 ”, 勾 选 *2008”、“2009” 
和 “2010”。 

将 “不 良 贷 款 ” 拖 放 到 “筛选 器 ”, 并 选中 “显示 簿 选 器 ”, 将 “不 良 贷 款 ” 的 值 设置 为 : 
400,000,000。 
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至 此 ,生成 的 分 析 图 如 图 5-25 所 示 。 从 图 中 可 以 看 到 2008 一 2010 年 不 良 贷 款 最 多 
的 企业 分 别 是 : 集体 企业 、 国 有 企业 和 私营 企业 。 其 中 “和 集体 企业 ”的 不 良 贷款 在 这 三 年 
都 是 最 多 的 ;“ 国 有 企业 ”2008 年 与 “集体 企业 ”的 不 良 贷款 差不多 ,但 在 2009 年 减少 很 
多 ,在 2010 年 已 没有 不 良 贷 款 ;“ 私 营 企 业 ” 居 第 三 ,也 是 2008 年 和 2009 年 有 不 良 贷款 ， 
2010 年 已 没有 了 不 良 贷款 。 以 后 可 以 重点 对 “集体 企业 ”进行 分 析 。 





总 计 (不 良 贷款) 
类 型 大 类 2008 2009 010 400.000.000 
股份 有 限 公司 i 53 562.734 
中 全 个 炎 EE 21.260.335 EN 1 01.008.130 
信 休 企业 轩 时 E 2 264.c20 43> O05.192 017 WW 531,45 ss 借款 年 份 
也 上 企业 国有 640501.432 | :2 34277 人 加 
oG 16 2G 3G 0G 1G 2G 3G oG 16 26 3G Null 
不 良 货 雪 不 恨 贷款 不 良 贷款 2000 
2001 
2002 
2003 
2004 
2005 
2006 
2007 
2008 
2009 











图 5-25 不 良 贷 款 多 的 经 济 类 型 企业 


2. 关联 分 析 : 给 “集体 企业 ”发 放 不 良 贷 款 的 银行 

分 析 目 标 : 从 图 5-25 的 分 析 结 果 已 经 知道 ,“ 集 体 企 业 ” 的 不 良 贷款 额 很 高 ,是 我 们 
进一步 分 析 的 重点 。 下 面 分 析 给 “集体 企业 ”发 放 不 良 贷 款 的 银行 及 不 良 贷 款 发 放 情 况 。 

(1) 设置 分 析 视 图 

新 建 一 个 工作 表 。 将 “借款 年 份 ” 拖 放 到 “ 列 ” 功 能 区 ,并 将 粒度 设置 为 “年 ”, 将 “不 良 
贷款 ” 拖 放 到 “ 行 ”功能 区 ,将 “市 行 名 称 ” 拖 放 到 “标记 ” 卡 的 “颜色 ”上 。 

(2) 设置 筛选 条 件 

将 “经 济 类 型 大 类 名 称 ” 拖 放 到 “筛选 器 ”, 并 只 勾 选 “集体 企业 ”。 

将 “借款 年 份 ” 拖 放 到 “筛选 器 ” ,取消 对 年 份 为 null 的 勾 选 。 

将 “不 良 贷 款 ” 拖 放 到 “筛选 器 ”并 选中 “显示 筛选 器 ”, 设 置 不 良 贷款 的 取 值 为 
100,000,000, 只 分 析 不 良 贷款 超过 100,000,000 的 数据 。 

产生 的 分 析 视 图 如 图 5-26 所 示 。 从 图 中 可 以 看 到 给 “集体 企业 ”发 放 不 良 贷款 的 情 
况 。2008 年 和 2009 年 发 放 不 良 贷 款 最 多 ,2008 年 “G 市 分 行 ”发放 的 不 良 贷款 最 多 ,2009 
年 “F 市 分 行 ”发 放 的 不 良 贷款 最 多 。 而 且 “F 市 分 行 22000 一 2009 年 连续 给 “集体 企业 ”发 
放 了 不 良 贷 款 ,“G 市 分 行 ? 是 2005 一 2010 年 连续 给 “集体 企业 ”发 放 了 不 良 贷款 。 

以 后 即 可 重点 考察 “G 市 银行 "和 “FF 市 银行 ?在 2008 年 和 2009 年 具体 对 哪些 集体 企 
业 发 放 了 较 多 的 不 良 贷款 。 
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总 计 (不 良 贷款) 


每 年 各 银行 发 放 不 良 贷款 情况 100.000 000 。 535793.526 

















图 5-26 各 银行 历年 给 集体 企业 发 放 的 不 良 贷款 情况 


3. 深入 分 析 :“ 集 体 企 业 ” 中 获得 不 良 贷款 多 的 企业 

分 析 目 标 : 在 了 解 了 2008 年 和 2009 年 “G 市 分 行 ? 和 ”*F 市 分 行 ? 对 集体 企业 发 放 的 
不 良 贷款 较 多 之 后 , 接 下 来 可 深入 分 析 这 些 不 良 贷款 都 发 放 给 了 哪些 企业 。 

假设 我 们 要 找 出 2008 年 “G 市 分 行 ”F 市 分 行 "? 和 “HH 市 分 行 ”给 集体 性 质 的 企业 发 
放 不 良 贷款 最 多 的 前 5 家 企业 的 名 称 和 所 发 放 的 不 良 贷 款 总 额 。 

(1) 创建 计算 字段 

排名 一 index() 

单 击 “ 排 名 ”字段 上 的 下 三 角 按 钮 ,在 弹出 的 菜单 中 选择 “转换 为 离散 ”。 

(2) 设置 分 析 视 图 

新 建 一 个 工作 表 。 将 “市 行 名称 ” 和 “客户 名 称 ” 分 别 拖 放 到 “ 行 ”功能 区 ,将 “不 良 贷 
款 ” 拖 放 到 “ 列 ” 功 能 区 。 

将 “排名 ” 拖 放 到 “ 行 ” 功 能 区 中 “市 行 名 称 ” 和 “客户 名 称 ” 之 间 , 然 后 单 击 “ 排 名 ”上 的 
下 三 角 按钮 ,在 弹出 的 菜单 中 选择 “编辑 ”, 弹 出 如 图 5-27 所 示 的 定义 计算 字段 窗口 ,在 此 
窗口 中 单 击 “ 默 认 表 计 算 ”, 弹 出 “ 表 计 算 [ 排 名 ]” 窗 口 ,在 此 窗口 中 单 击 “ 根 据 以 下 因素 计 
算 ” 下 拉 列 表 框 ,选择 “高 级 ”, 弹 出 如 图 5-28 所 示 的 “高 级 "窗口 。 








排名 x 


结果 计算 为 沿 著 表 ( 杰 穿 )。 


index{) 


计算 有 效 . 影响 的 工作 表 记 用 EE 








图 5-27 定义 计算 字段 窗口 


在 弹出 的 如 图 5-28 所 示 的 “高 级 ”窗口 中 ,分 别 将 “分 区 ” 框 中 的 “市 行 名 称 ” 和 “客户 
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名 称 ” 添 加 到 “ 寻 址 ” 框 中 ,在 “排序 ”部 分 ,选中 “字段 ” 单 选 按钮 ,选择 “不 良 贷 款 ” 和 “总 
计 ”, 在 排序 方式 部 分 选择 “降序 ”, 以 查看 不 良 贷 款 合 计 最 多 的 企业 。 设 置 好 后 的 窗口 形 
式 如 图 5-29 所 示 。 单 击 “ 确 定 ” 按 钮 , 回 到 “ 表 计 算 ” 窗 口 。 





分 区 介 ): 寻 址 (A): 




























































































ii 
分 区 人); 号 址 (A): 
客户 代码 ~ > 市 行 名 称 
客户 代码 ( 队 表 法 人 基本 信 香 去 ) 客户 名 称 
[天 种 ] < 
上 | | 担保 方式 大 类 日 
由 | 担保 方式 昌 细 
支行 名 称 
支行 等 辖 机 构 名 称 
机 构 篇 码 E 
法 人 代表 二 
| 和 经济 类 型 ~ 下 合 (D) 
排序 (S) 
© 自动 
® +&E): 
不 良 作 款 | [总 二 | @ 升 FO © 降 贱 日 


























图 5-29 设置 好 的 “高 级 ”窗口 


在 “ 表 计 算 ” 窗 口中 ,在 “所 在 级 别 ” 下 拉 列 表 框 中 选择 “客户 名 称 ”, 在 “重新 启动 间隔 ” 
下 拉 列 表 框 中 选择 “市 行 名 称 ”。 设 置 好 的 形式 如 图 5-30 所 示 。 

单 击 “ 确 定 ” 按 钮 ,关闭 “ 表 计 算 ” 窗 口 。 

(3) 设置 筛选 条 件 

将 “借款 年 份 ” 拖 放 到 “筛选 器 ”, 匀 选 “2008” ,假设 只 分 析 2008 年 不 良 贷 款 情 况 。 

将 “经 济 类 型 大 类 名 称 ” 拖 放 到 “筛选 器 ”, 勾 选 “ 集 体 企业 ”, 这 里 只 分 析 “ 集 体 企业 ”的 
不 良 贷款 情况 。 

将 “市 行 名 称 ? 拖 放 到 “筛选 器 ” ,选择 * 显 示 筛 选 器 ” ,将 “市 行 名 称 ” 的 筛选 显示 在 分 析 
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Ee 罪名 ] 





计算 定义 





根据 以 下 因素 计算 (C): 
所 在 和 级别): 
秆 新 启动 间 隅 介 ): 




















说 电 O) 
丫 果 计算 为 沿 着 市 行 名 称 , 客户 名 称 ( 按 不 良 代 喜 总 计 的 升序 排序 )。 每 隔 市 行人 ^ 
和 名称， 计算 从 零 重 新 开始 . 




















图 5-30 ”设置 好 的 “ 表 计 算 " 窗 口 


视图 中 ,并 勾 选 “市 分 行 ”“G 市 分 行 " 和 “HH 市 分 行 ”。 

将 “ 行 ?功能 区 的 "排名 ? 拖 放 到 "筛选 器 ”, 在 弹出 的 "筛选 器 ?窗口 中 , 勾 选 前 5 个 排名 
(假设 我 们 只 考察 每 个 市 行 发 放 不 良 贷款 最 多 的 前 5 家 企业 ) 。 

将 分 析 视 图 中 的 数据 按 “ 不 良 贷款 ”降序 排序 ,将 “不 良 贷 款 ” 拖 放 到 “标记 ” 卡 的 “ 标 
签 " 上 。 

最 终 的 分 析 结 果 如 图 5-31 所 示 , 从 图 中 可 看 到 只 列 出 了 每 个 市 行 发 放 不 良 贷 款 最 多 
的 5 个 客户 名 称 ,并 且 对 每 个 市 行 按 不 良 贷款 额 降 序 排序 。 





mm 1 CE 
= EEE = 





6 市 分 本 


? 0 HH 市 分 和 
We 大小 | 和 入 
已 


Malse IR 


EY res 














图 5-31 重点 银行 给 重点 客户 发 放 不 良 贷款 情况 


5.1.4 各 类 贷款 的 不 良 贷款 情况 分 析 


1. 把 握 总 体 : 各 贷款 类 别 在 当年 的 不 良 贷款 中 的 占 比 
分 析 目 标 : 分 析 各 个 贷款 大 类 的 不 良 贷 款 情况 ,了 解 每 个 贷款 大 类 在 当年 不 良 贷 款 
中 的 占 比 。 
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(1) 设置 分 析 视 图 

新 建 一 个 工作 表 。 将 “借款 年 份 ” 拖 放 到 “ 列 ” 功 能 区 ,将 “贷款 类 别 大 类 ” 拖 放 到 “ 行 ” 
功能 区 。 

将 “不 良 贷 款 ” 拖 放 到 “颜色 ”和 “文本 ”, 将 右 端 颜色 设置 为 红色 。 

(2) 设置 筛选 条 件 

将 “借款 年 份 ” 拖 放 到 “筛选 器 ”, 由 于 2007 一 2013 年 是 不 良 贷款 高 峰 年 ,因此 ,这 里 只 
勾 选 2007 一 2013 年 。 

将 “贷款 类 别 大 类 ” 拖 放 到 “筛选 器 ” ,去 掉 其 中 取 值 为 “null” 的 贷款 类 别 大 类 。 

(3) 设置 不 良 贷 款 占 比 

单 击 标签 上 的 “总 计 ( 不 良 贷款 )” 的 下 三 角 按钮 ,在 弹出 的 菜单 中 选择 “快速 表 计算 ” 
一 “总 额 百分比 ”。 

产生 的 分 析 结 果 如 图 5-32 所 示 , 从 图 中 可 以 看 到 每 年 90% 以 上 的 不 良 贷款 都 发 放 给 
了 “流动 资金 贷款 ”, 因 此 需要 对 该 类 贷款 予以 关注 。 


2011 2012 2013 


92.409% 93.90% 95.29% 95.05% 91.129 


























生产 经 营 类 贷款 
一 般 消费 贷款 








车 








总 计 ( 不 良 贷款 ) 





0 





图 5-32 各 类 贷款 在 不 良 贷款 中 的 占 比 


2. 锁定 重点 : 不 良 贷款 率 高 的 贷款 细 分 类 别 

分 析 目 标 : 找 出 不 良 贷款 率 高 的 贷款 的 细 分 类 别 。 

新 建 一 个 工作 表 。 将 “贷款 类 别 大 类 ” 拖 放 到 “ 行 ”功能 区 ,将 “不 良 贷 款 率 ” 拖 放 到 
“ 列 ” 功 能 区 和 “标签 "上 ,将 “不 良 贷 款 率 ” 的 显示 格式 设置 为 百分比 ,将 “不 良 贷 款 ” 拖 放 到 
“颜色 ”上 。 展 开 “ 行 ”功能 区 的 “贷款 类 别 大 类 ”, 产 生 的 分 析 结 果 如 图 5-33 所 示 。 从 该 图 
可 明显 看 出 ,虽然 “一 般 企业 流动 资金 贷款 ”的 不 良 贷 款额 非常 高 (颜色 越 深 数 额 越 大 ) ,但 
其 不 良 贷 款 率 并 不 是 非常 高 ,为 47.1%。 而 “ 自 建 房贷 款 ” 的 不 良 贷 款 率 最 高 ,为 100%。 
下 面 可 进一步 分 析 不 良 贷款 率 高 的 这 些 类 型 的 贷款 的 具体 情况 。 
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证 列 
EE 
贷 标 类 别 大 类 ”货款 类 浏 明细 分 类 
房地产 公款 商业 用 房 并 发 贷款 673% 国 
商用 房 二 手 楼 贷款 0.00% 
商用 房 一 手 楼 货款 Oo0% 
学 校 房 芝 款 026% 
园区 十 地 并 发 货款 0.00% 
政府 土地 储备 机 构 货款 O00% 
住房 开发 贷款 中 145% 
扶贫 贷款 
网 定 开 产 借款 
访 动 资金 贷款 
融 易 丙 次 贷款 
CET 
0 1 2 3 4 5 6 7 8 9 10 11 
不 良 货款 率 














图 5-33 各 贷款 明细 分 类 的 不 良 贷款 率 


3. 深入 分 析 : 各 银行 发 放 不 良 贷款 率 高 的 贷款 类 别 

分 析 目 标 : 从 图 5-33 的 分 析 得 知 * 自 建 房贷 款 ” 的 不 良 贷款 率 最 高 ,为 100% ,但 其 不 
良 贷 款额 很 少 ,而 且 只 有 一 笔 贷款 ,因此 ,我 们 可 以 不 对 此 类 贷款 进行 分 析 。 而 “农用 生产 
资料 贷款 ”的 不 良 贷款 率 非常 高 ,为 99. 92% ,其 不 良 贷 款额 也 比较 高 ,我 们 分 析 2003 一 
2011 年 各 银行 给 “农用 生产 资料 贷款 ”发 放 的 不 良 贷款 数额 。 

(1) 设置 分 析 视 图 

新 建 一 个 工作 表 。 将 “借款 日 期 " 拖 放 到 “ 列 ” 功 能 区 ,粒度 选 “年 ”, 将 “市 行 名 称 ” 拖 放 
到 “ 行 ” 功 能 区 。 

将 “不 良 贷 款 率 ” 拖 放 到 “文本 ”上 。 

(2) 设置 筛选 条 件 

将 “借款 日 期 " 拖 放 到 “筛选 器 ”, 勾 选 2003 一 2011 年 的 所 有 年 。 

将 “贷款 类 别 明细 分 类 ” 拖 放 到 “筛选 器 ”, 勾 选 “农用 生产 资料 贷款 ”。 

产生 的 分 析 结 果 如 图 5-34 所 示 。 这 里 用 表格 形式 给 出 每 个 银行 每 年 给 “农用 生产 资 
料 贷款 ”发 放 的 不 良 贷 款 总 额 。 

4. 关联 分 析 : 各 银行 发 放 不 良 贷款 率 高 的 贷款 类 别 

分 析 目 标 : 从 之 前 的 分 析 可 知 贷款 类 别 为 “农用 生产 资料 贷款 ”, 经 济 类 型 为 “集体 企 
业 ” 的 2008 年 和 2009 年 的 不 良 贷款 额 和 不 良 贷款 率 都 比较 高 。 下 面 综合 分 析 贷 款 类 别 
为 “农用 生产 资料 贷款 ”经 济 类 型 为 “集体 企业 ”的 客户 中 ,2008 年 和 2009 年 都 有 哪些 银 
行 给 这 些 类 别 的 客户 中 的 哪些 具体 客户 发 放 了 比较 多 的 不 良 贷款 。 
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页 面 证 列 a 
训 首 
借款 日 期 
市 行 名 称 2003 2004 2005 2006 2007 2008 2009 2010 2011 
人 市 分 行 273,000 197.000 629.000 4.489.000 2.446.861 ”10.519.420 。 16.654.937 700.000 
B 市 分 行 4123,272 。 6568.714 5070,100 8,814,892 6,199,574 11.003,557 21,228,415 505,899 
C 市 分 行 246,000 500,000 1,314,000 0 3.281.000 17,848.000 23,198,000 4.010.000 5.910.000 
标记 D 市 分 行 2860.119 3,371,540 2,079.060 3,717,000 1.565.000 7,808.228 1,821,000 190,000 2920.000 
E 市 分 行 100.000 244.000 314.500 4453.650 6323,000 25,729.000 2.775,000 。 4.500.000 700,000 
自动 bd F 市 分 行 4.866.827 1970455 2957,750 5225,100 8,981,200 16.023,463 81,803,000 0 
Er 局 |] 器 G 市 分 行 2,185,484 137,500 4.036.900 5389,200 1,725300 ”27.034.694 29.415.635 7,866,000 1,126,960 
a 和 本 H 市 分 行 756,619 1,339,047 2,753,200 2.983,624 7.402.601 16.583,408 24,457,665 2,600,000 3,910,000 
1 市 分 行 121,155 1.444.380 411.000 460,100 676.000 2.727.000 9.774.000 5,760,000 
J 市 分 行 1,738,620 3.489.697 1,709,350 1,775,332 7,571,277 24,146,200 2,538,200 50.000 6,576,000 
K 市 分 行 2.443,530 3.870,538 1,489,400 1,360,000 470.000 8,467.000 3,595.000 2,600,000 9,150,000 














图 5-34 各 市 行 每 年 给 “农用 生产 资料 贷款 ”发 放 的 不 良 贷款 数额 


(1) 设置 分 析 视 图 

新 建 一 个 工作 表 。 将 “不 良 贷 款 ” 拖 放 到 “ 列 ” 功 能 区 ;将 “借款 日 期 " 拖 放 到 “ 行 ” 功 能 
区 ,选择 粒度 为 “年 ”; 将 “行业 名 称 ”“ 市 行 名 称 ”“ 客 户 名 称 ” 分 别 拖 放 到 “ 行 ” 功 能 区 ,并 展 
开 “ 市 行 名 称 ”>“ 支 行 名 称 ”>“ 支 行 管辖 机 构 名 称 ”; 将 “贷款 五 级 分 类 ” 拖 放 到 “颜色 ”; 将 
“不 良 贷 款 ” 拖 放 到 “标签 ”。 

(2) 设置 分 析 条 件 

将 “贷款 类 别 明细 分 类 ” 拖 放 到 “筛选 器 ”, 并 只 勾 选 “农用 生产 资料 贷款 ”; 将 “借款 日 
期 " 拖 放 到 “筛选 器 ”, 并 勾 选 “2008” 和 “2009”; 将 “经 济 类 型 明细 名 称 ” 拖 放 到 “筛选 器 ”, 勾 
选 “集体 企业 ”; 将 “不 良 贷 款 ” 拖 放 到 “筛选 器 ”, 并 将 筛选 条 件 设 为 : 二 二 3,000,000。 

产生 的 分 析 结 果 如 图 5-35 所 示 , 从 图 中 可 以 看 到 2009 年 “F 市 矿区 支行 营业 室 ” 给 
“ 某 市 农业 生产 资料 总 公司 ”发 放 的 “可 疑 ” 类 不 良 贷款 非常 多 。 
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图 5-35 关联 多 种 信息 的 不 良 贷款 分 析 
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至 此 ,我们 从 多 个 角度 对 不 良 贷款 的 发 放 情 况 进行 了 分 析 , 找 出 了 不 良 贷 款 发 放 多 的 
年 份 、 发 放 不 良 贷款 多 的 银行 ,同时 找 出 了 这 些 不 良 贷款 都 具体 发 放 给 了 哪些 企业 或 个 
人 ,从 而 为 今后 减少 或 避免 不 良 贷款 的 发 放 、 提 高 信贷 资产 质量 ,提供 了 可 靠 的 参考 依据 。 


5.2 保险 公司 客户 索赔 分 析 


在 保险 行业 中 常 有 大 量 的 数据 需要 分 析 , 时 刻 了 解 客户 的 索赔 、 公 司 的 赔付 情况 ,对 
保险 公司 来 说 非常 重要 。 本 案例 以 一 家 保险 公司 的 索赔 、 赔 付 数 据 为 例 , 分 析 该 公司 在 全 
国 各 省 各 年 龄 段 的 不 同性 别 的 客户 的 索赔 额 及 实际 赔付 额 情况 ,并 分 析 哪 个 或 哪些 省 的 
情况 比较 异常 以 及 索赔 与 赔付 的 趋势 ,同时 演示 了 根据 客户 索赔 的 金额 ,预测 实际 赔付 额 
会 是 多 少 。 

该 保险 公司 客户 索赔 分 析 数 据 存储 在 一 个 Excel 文件 中 ,结构 为 : 

保险 公司 客户 索赔 数据 (日 期 ,客户 性 别 ,索赔 单 号 ,保险 单 号 ,区 域 , 身 份 , 城 市 ,客户 
年 龄 ,索赔 额 ,赔付 额 ) 


5.2.1 数据 准备 


1. 连接 数据 源 
在 Tableau 建立 数据 源 窗口 ,选择 连接 到 “Excel”, 选 择 “ 保 险 公司 客 户 索 赔 数 据 . 
xlsx”。 此 时 连接 数据 源 窗口 如 图 5-36 所 示 。 


















































Tle - Tf -本 本 EE (el) 
文件 日” 数据 (D) 服务 器 (5) ” 甸 口 (N) ”帮助 (H) 
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日 期 客户 性 别 素 赔 单 S 保险 单 号 区 域 省 份 城市 客户 年 龄 索赔 额 赔付 额 
2011/1/30 女 10,021.265,7.. 100.831.5353-， 华北 河北 石家庄 30 6500 2500 i 
2011/1/30 女 10.021.250.7.。 100.114.340.7..。 华南 河南 El 40 2.050 650 
2otayuao 女 10021257.6.。 1008266320.。 4 卫 ja sa aoso 
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z01yya0 六 了 wa 100 So00 
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山 #aIfa 201VV30 女 吉本 长 要 62 7100 5000 
< pore op es na wo 
口 数据 源 If 和 1 Er 是: 于 :a 
灌 要 国 
图 5-36 ”连接 “保险 公司 客户 索赔 数据 . xlsx” 
2. 数据 转换 


在 工作 表 的 维度 列表 中 , 单 击 “ 省 份 ”的 下 三 角 按钮 , 在 弹出 的 菜单 中 选择 “地 理 角 
色 ? 一 省 /市 /自治 区 ”。 
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在 “度量 ”列表 框 中 , 单 击 “ 保 险 单 号 ”的 下 三 角 按钮 ,在 弹出 的 菜单 中 选择 “转换 为 维 
度 ”。 同 样 将 “索赔 单 号 ?也 转换 为 维度 。 
3. 定义 计算 字段 
年 龄 区 间 = 
下 [客户 年 龄 ] <30 THEN '20- 29' 
ELSEIF [客户 年 龄 ] < 40 THEN '30- 39' 
HLSEIF [客户 年 龄 ] < 50 THEN '40- 49' 
ELSEIF [客户 年 龄 ] < 60 THEN '50- 59' 
ELSETF [客户 年 龄 ] < 70 THEN '60- 69' 
END 


5.2.2 数据 分 析 


1. 索赔 分 析 
分 析 目 标 : 分 析 各 地 区 、 各 年 龄 段 的 客户 的 平均 赔付 金额 ,以 及 事故 次 数 与 平均 赔付 
额 之 间 的 关系 。 


(1) 定义 计算 字段 

事故 次 数 =COUNT([ 索 赔 单 号 ]) 

(2) 设置 分 析 视 图 

将 “事故 次 数 关 赔付 额 ” 分 别 拖 放 到 “ 列 ? 功 能 区 和 * 行 ?功能 区 ,并 将 “赔付 额 ” 的 计算 
方式 改 为 “平均 值 ”。 

将 “省 份 ” 拖 放 到 “标记 ” 卡 的 “详细 信息 ”上 ,将 “客户 性 别 ” 分 别 拖 放 到 “形状 ”和 “ 颜 
色 ” 上 。 单 击 “ 标 记 ” 卡 中 “客户 性 别 ” 形 状 的 下 三 角 按 钮 ,选择 “编辑 形状 ”, 在 弹出 的 “编辑 
形状 ”对 话 框 中 ,在 “选择 形状 板 ” 下 拉 列 表 框 中 选择 “性 别 ”, 分 别 选 中 “ 男 ” 和 “ 女 ” 的 图 标 ， 
如 图 5-37 所 示 。 















































选择 数据 项- 选择 玉 状 板 (S): 
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图 5-37 选择 各 性 别 的 形状 
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至 此 生成 的 分 析 视 图 如 图 5-38 所 示 。 
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图 5-38” 按 客户 性 别 显示 的 分 析 视 图 


(3) 添加 参考 线 

右键 单 击 横 轴 上 的 事故 次 数 ,在 弹出 的 菜单 中 选择 “添加 参考 线 ”, 弹 出 “添加 参考 线 、 
参考 区 间或 框 ” 的 窗口 ,在 此 窗口 中 进行 如 下 设置 : 

。 参考 线形 式 选择 “分 布 ”; 

。“ 范 围 ” 选 择 “ 每 单元 格 ”; 

。“ 值 ”选择 “标准 差 ”, 并 将 标准 差 因 子 设置 为 (一 2,2); 

。“ 标 签 ” 选 择 “ 无 ”; 

。 在“ 格式” 部分,“ 线 ” 选 择 一 种 细 线 ,“ 填 充 ” 选 择 浅 灰 色 。 

设置 好 后 的 形式 如 图 5-39 所 示 。 单 击 “ 确 定 ” 按 钮 关闭 此 窗口 。 

右键 单 击 纵 轴 , 选 择 “ 编 辑 轴 ”, 将 纵 轴 标题 改 为 “平均 赔付 额 ”。 

然后 再 次 右键 单 击 纵 轴 ,在 弹出 的 菜单 中 选择 “添加 参考 线 ”, 在 弹出 的 “添加 参考 线 、 
参考 区 间或 框 ?窗口 中 ,进行 同 横 轴 参考 线 相 同 的 设置 。 

至 此 ,分析 视图 样式 如 图 5-40 所 示 。 

(4) 添加 详细 信息 

将 “区 域 * 索 赔 额 “ 客 户 年 龄 "分别 拖 放 到 “标记 ” 卡 的 “详细 信息 ”上 ,并 将 “索赔 额 ” 
“客户 年 龄 ”的 计算 方式 改 为 "平均 值 ”。 

(5) 添加 筛选 条 件 

将 “平均 值 (赔付 额 ) 光 平均 值 ( 索 赔 额 )” 区 域 近 年 龄 区 间 ? 分 别 添加 到 “筛选 器 ?中 ,并 
选择 “显示 筛选 器 ?”。 将 * 平 均值 (赔付 额 )?” 和 * 平 均值 (索赔 额 )” 的 筛选 条 件 选 为 “至 少 ”, 如 
图 5-41 所 示 。 将 “区 域 ? 和 ”年 龄 区 间 ” 筛 选 器 显示 格式 均 设 置 为 “ 单 值 ( 下 拉 列 表 )”。 

单 击 筛选 条 件 区 域 “ 平 均值 (赔付 额 )? 的 下 三 角 按 钮 ,从 弹出 的 菜单 中 选择 “编辑 标 
页 ”, 将 此 标题 改 为 “请 选择 赔付 额 区间 ”。 同 理 将 “平均 值 (索赔 额 )”“ 区 域 ”“* 年 龄 区 间 ” 的 
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5-40 ”添加 完 参考 线 后 的 分 析 视 图 
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图 5-41 将 "平均 赔付 额 ” 的 筛选 条 件 选 为 "至少 ” 


第 选 标题 分 别 改 为 :“ 请 选择 索赔 额 区 间 ”“ 请 选择 区 域 “ 请 选择 年 龄 区 间 ”。 
至 此 ,分 析 视 图 的 样式 如 图 5-42 所 示 。 
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图 5-42 设置 完 筛选 条 件 后 的 分 析 视 图 


(6) 添加 趋势 线 

为 了 分 析 事 故 次 数 与 平均 赔付 额 之 间 的 关系 ,可 以 采取 添加 趋势 线 的 方法 。 实 现 方 
法 如 下 : 

右键 单 击 分 析 视 图 中 的 任意 位 置 ,在 弹出 的 菜单 中 选择 “趋势 线 ”>“ 显 示 趋 势 线 ”, 分 
析 视 图 效果 如 图 5-43 所 示 。 

从 图 中 可 以 看 出 ,“ 直 线 ” 型 的 趋势 线 并 不 能 很 好 地 模拟 事故 次 数 与 平均 赔付 额 之 间 
的 关系 ,我们 可 以 对 趋势 线 类 型 进行 修改 ,使 趋势 线 能 更 好 地 体现 事故 次 数 与 平均 赔付 额 
之 间 的 关系 。 修 改 方法 如 下 : 

。 107 ， 


大 数据 应 用 分 析 技 术 与 方法 





选中 任意 一 条 趋势 线 , 在 随 之 出 现 的 选项 中 选择 “编辑 ”( 或 者 在 趋势 线 上 右 击 鼠标 ， 
在 弹出 的 菜单 中 选择 “编辑 趋势 线 ”) ,弹出 “趋势 线 选项 ”窗口 ,在 此 窗口 中 进行 如 下 设置 

。 在 “模型 类 型 "部 分 勾 选 “ 多 项 式 ”, 并 将 度 设置 为 2; 

。 在 “选项 ”部 分 的 “包括 以 下 字段 作为 因素 ”列表 框 中 确认 选中 “客户 性 别 ”; 

。 取消 对 “允许 按 颜色 绘制 趋势 线 ” 等 选项 的 色 选 ,只 显示 总 体 趋 势 线 即 可 。 














时 
站 
加 
主 


























图 5-43 ”添加 趋势 线 后 的 分 析 视 图 
趋势 线 的 最 终 设置 如 图 5-44 所 示 。 修 改 好 趋势 线 后 的 分 析 视 图 如 图 5-45 所 示 。 

















图 5-44 设置 趋势 线 选项 
“108» 
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5-45 ”修改 好 趋势 线 类 型 后 的 分 析 视 图 


从 图 5-45 可 以 很 容易 发 现 事故 次 数 或 平均 赔付 额 在 两 个 标准 差 之 外 的 异常 点 , 另 
外 ,可 以 通过 使 用 视图 右 侧 区 域 的 筛选 器 方便 地 钻 取 到 某 一 层 数 据 , 例 如 ,将 区域 选 为 
“华北 ”, 年 龄 段 选 为 50 一 59”, 则 视图 立即 变 为 如 图 5-46 所 示 的 样式 ,从 该 图 很 容易 发 
现 , 在 华北 地 区 ,年 龄 为 50 一 59 的 人 群 中 ,事故 次 数 和 平均 赔付 额 基 本 都 算 正 常 。 
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5-46 “华北 ”地 区 50 一 59 年 龄 段 的 赔偿 的 分 析 视 图 


如 果 将 “区 域 ” 改 为 “华东 ”, 则 分 析 视 图 如 图 5-47 所 示 。 从 图 中 可 看 到 有 少量 事故 
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次 数 和 平均 赔付 额 不 太 正 常 。 


E 
泽 行 平均 值 (赔付 额 ) 


工作 表 5 请 选择 赔付 额 区 间 
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图 5-47 “华东 ”地 区 50 一 59 年 龄 段 的 赔偿 的 分 析 视 图 


至 此 完成 了 索赔 分 析 ,将 此 工作 表 命 名 为 “索赔 分 析 ”。 

2. 各 省 的 索赔 额 与 赔付 额 趋势 

分 析 目 标 : 观察 各 省 的 客户 索赔 额 与 赔付 额 之 间 的 趋势 关系 。 

(1) 设置 分 析 视 图 

。 新 建 一 个 工作 表 , 按 住 Ctrl 键 ,依次 选中 “省 份 “ 赔 付 额 “索赔 额 ”, 单 击 “ 智 能 

示 ”, 选 择 其 中 推荐 的 “ 散 点 图 ”。 

。 单 击 工具 栏 中 的 “交换 ”图 标 辆 ,交换 横 、 纵 坐标 轴 。 

。 单 击 “ 分 析 ” 菜 单 , 取 消 对 “聚合 度量 ”的 勾 选 。 

。 右键 单 击 视图 中 的 任意 位 置 ,在 弹出 的 菜单 中 选择 “趋势 线 ”>“ 显 示 趋 势 线 ”。 

至 此 ,生成 的 分 析 视 图 如 图 5-48 所 示 。 从 图 中 可 以 看 到 索赔 额 与 赔付 额 之 间 是 线性 
关系 ,选择 某 个 省 , 则 显示 该 省 的 索赔 额 与 赔付 额 之 间 的 线性 方程 ,通过 该 线性 方程 ,可 以 
预测 , 当 某 个 省 某 个 客户 索赔 一 定金 额 时 ,最 后 可 能 需要 赔付 多 少 金额 。 

(2) 将 工作 表 命 名 为 “各 省 索赔 与 赔付 情况 ” 

3. 各 省 索赔 额 与 赔付 额 排 序 

分 析 目 标 : 哪个 省 的 索赔 额 最 多 、 哪 个 省 的 实际 赔付 额 最 多 ,以 及 每 个 省 的 索赔 额 与 
赔付 额 之 间 的 差异 情况 。 

新 建 一 个 工作 表 , 将 “省 份 ” 拖 放 到 “ 行 ”功能 区 ,将 “索赔 额 “ 赔 付 额 "分 别 拖 放 到 “ 列 ” 
功能 区 

eg ne 5-48 所 示 的 
“编辑 轴 ” 窗 口 。 在 “范围 ”部 分 选中 “固定 ”“ 固 定 开始 ” 值 设 为 0,“ 固 定 结束 ” 值 设 为 
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16,000,000。 在 “比例 ”区 域 , 勾 选 “ 倒 序 ”( 如 图 5-49 所 示 ), 然 后 单 击 “ 确 定 ” 按 钮 关闭 此 
窗口 。 为 保证 横 轴 上 的 “赔付 额 ” 的 坐标 轴 刻 度 与 “索赔 额 ” 一 致 ,右键 单 击 横 轴 上 的 “赔付 
额 ”, 选 择 “ 编 辑 轴 ”, 进行 如 图 5-50 所 示 的 设置 。 

















20,000 40,000 60,000 80,000 100,000 120,000 140,000 
索赔 客 











图 5-48 各 省 索赔 额 与 赔付 额 趋势 
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比例 标杆 
倒序 (R) 标 配 中 : 索赔 地 


对 数 (L) 副 标 想 (B): 
























































图 5-49 “索赔 额 * 的 “编辑 轴 ” 窗 口 
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回 便 字 (QR) 标题 CD: 。 悦 付 前 

回 对 数 L) 。 副 标 想 (8): [ 团 自动 (4) 
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图 5-50 “赔付 额 * 的 “编辑 轴 ” 设 置 


至 此 ,分 析 视 图 的 样式 如 图 5-51 所 示 。 


且 行 省 份 


16.000.000 





12.000.000 


总 计 倍 付 钢 


现 画 
1 
ls 
es EPE 
Bos Wl 
8.000.000 4.000.000 00 4.000.000 8.000.000 


12,000,000 


16.000.000 


帝 列 总 计 ( 过 税额 ) 




















图 5-51 同步 两 个 横 轴 刻度 后 的 分 析 视 图 


选中 “标记 ?中 的 “总 计 ( 赔 付 额 )”, 单 击 * 颜 色 ”, 将 "总 计 ( 赔 付 额 )? 设 置 为 红色 。 


单 击 工具 栏 中 的 “降序 图标 垣 ,将 分 析 结 果 按 “索赔 额 ”降序 排序 。 


单 击 工具 栏 中 的 “显示 标记 标签 ?图 标 国 ,在 分 析 视 图 中 显示 出 具体 数据 值 。 


“ 
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最 终 的 分 析 视 图 如 图 5-52 所 示 。 将 该 工作 表 命 名 为 “索赔 与 赔付 降序 分 析 ”。 











科 列 总 计 ( 祭 乱 额 ) 总计 储 付 钢 
污 行 章 份 ” 
广东 13.446.150_ 对 71250 
1 本 3.852 200 OE <2 <00 i 
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浙江 5.757.400 EE E4701 200 
人 63150 OEE 2 < 
由 西 4 462.750 EE 2. 579 250 
海 市 .405,700 EEE EE 2 57 500 
吉林 3.570.350 EE EE 2 716 300 
河南 3.523.000 EE 2.541.350 司 
北京 3.764.950 [2.31.<o0 
ti 3.639 .650 OE EE 2 «1,200 
大津 3.357.750 EEE 2 212 200 
安徽 3.055 350 EE 2010 4o0 
墨 大 江 2.617.500 EE EE 1 .752.250 
湖北 2.056 200 OE 1,394.000 
由 东 1.962 400 国有 国 1,311,000 
击 市 1.590 000 NO 1.24s.4oo [= 
河北 1779.000 IE 1,177.650 
陕西 1603,450 WW 1.033.500 
祝 奸 1.546.900 国 国 且 硬 时 .oos2so 
江苏 1,303.650 NI 904.400 
1 源 1,193.850 NI 733.250 
宁 页 1,065,300 WW 709,450 
16,000.000 。 12.000.000 8.000.000 4.000.000 oo0 4.000.000 8.000.000 12.000.000 。 16.000.000 
未 内 所 邓 天 巾 付 页 池 








图 5-52 索赔 与 赔付 降序 分 析 视 图 


4. 综合 分 析 
分 析 目 标 : 组 合 已 生成 的 各 工作 表 ,进行 多 角度 的 索赔 与 赔付 分 析 。 


(1) 设置 仪表 板 布 局 

新 建 一 个 仪表 板 ,将 “索赔 分 析 ”“ 各 省 索赔 与 赔偿 情况 “索赔 与 赔偿 降序 分 析 ” 工 作 
表 分 别 拖 放 到 仪表 板 的 合适 位 置 。 仪 表 板 布局 如 图 5-53 所 示 。 

(2) 美化 仪表 板 外 观 

修改 各 工作 表 标 题 的 显示 方式 ,使 仪表 板 界 面 更 加 美观 。 双 击 “ 索 赔 分 析 ” 工 作 表 , 弹 
出 “编辑 标题 ”窗口 ,在 此 窗口 中 ,选中 “二 工作 表 名 称 二 ”, 然 后 将 颜色 选 为 蓝 色 ,显示 方式 


为 “居中 ”, 如 图 5-54 所 示 。 
用 同样 的 方法 设置 “各 省 索赔 与 赔偿 情况 ”和 “索赔 与 赔偿 降序 分 析 ” 工 作 表 的 


er 
Hl 
Im 


题 。 

设置 仪表 板 的 标题 ,方法 如 下 : 单 击 菜单 栏 上 的 “仪表 板 ”, 在 出 现 的 菜单 项 中 勾 选 
“显示 标题 ”, 然 后 在 出 现 的 仪表 板 标 题 上 双击 鼠标 ,弹出 “编辑 标题 "窗口 ,在 该 窗口 中 将 
仪表 板 标 题 设 为 “索赔 分 析 与 预测 ”, 字 体 居 中 显示 。 设 置 好 的 仪表 板 标 题 如 图 5-55 
所 示 。 
至 此 仪表 板 的 样式 如 图 5-56 所 示 。 


(3) 设置 筛选 条 件 的 使 用 范围 
单 击 筛选 条 件 中 的 “请 选择 区 域 ? 的 下 三 角 按 钮 ,在 弹出 的 菜单 中 选择 “应 用 于 工作 


表 ”- 一 选 定 的 工作 表 ”, 在 弹出 的 “将 筛选 器 应 用 于 工作 表 ? 窗 口中 , 单 击 “ 仪 表 板 上 的 所 有 
项 ”按钮 , 勾 选 该 仪表 板 上 的 全 部 工作 表 , 如 图 5-57 所 示 。 用 同样 的 方法 设置 “请 选择 年 


龄 区 间 ” 筛 选 条 件 。 
+ TS 
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图 5-53 初步 建立 的 仪表 板 
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图 5-54 设置 工作 表 的 标题 显示 格式 


(4) 设置 筛选 动作 


创建 一 


应 省 份 的 数据 ,否则 显示 全 部 数据 。 
设置 方法 如 下 : 
单 击 菜单 栏 的 “仪表 板 ”, 选 择 “ 操 作 ”, 弹 出 “操作 ”窗口 
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个 筛选 动作 , 当 点 击 “ 索 赔 分 析 ? 中 的 某 个 点 时 “各 省 索赔 与 赔偿 情 





况 ” 显 示 对 
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图 5-55 设置 仪表 板 的 标题 显示 格式 




















图 5-56 设置 工作 表 标 题 显 示 格 式 


在 “操作 ”窗口 中 单 击 * 添 加 操作 ”按钮 ,选择 “筛选 器 ”弹出 “添加 筛选 器 操作 ” 


窗口 。 


在 该 窗口 中 ,在 名称? 部 分 将 该 动作 命名 为 “索赔 与 赔付 筛选 ”。 在 “ 源 工 作 表 ” 中 
勾 选 “ 索 赔 分 析 ”, 在 “运行 操作 方式 ”部 分 选择 “选择 ”"。 在 “目标 工作 表 ” 部 分 勾 选 
“各 省 索赔 与 赔付 情况 ”, 在 “清除 选 定 内 容 将 会 部 分 选中 “显示 所 有 值 ”, 表 示 当 
不 选中 任何 内 容 时 ,显示 全 部 值 。 设 置 结果 如 图 5-58 所 示 。 
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素 赔 与 赔付 降序 分 析 现 有 秘 选 器 保 贸 6 个 成 员 (总 共 6 们 )。 
赔付 分 析 现 有 算 先 器 保留 6 个 成 员 (总 共 6 个 )。 






































图 5-57 设置 筛选 条 件 的 作用 范围 
。 单 击 “ 确 定 ” 按 钮 ,关闭 “添加 筛选 器 操作 ”窗口 。 
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图 5-58 设置 仪表 板 的 筛选 动作 
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(5) 设置 突出 显 
创建 突出 显 索赔 分 析 ” 中 点 击 一 个 客户 时 ,在 “各 省 索赔 与 赔付 降序 分 析 ” 
中 都 将 突出 显示 对 应 省 份 的 信息 。 或 者 当 在 筛选 条 件 中 指定 某 个 区 域 时 ,在 “各 省 索赔 与 
赔付 降序 分 析 ” 中 只 突出 显示 该 区 域 包含 的 省 份 的 数据 。 
设置 方法 如 下 : 
。 单 击 菜单 上 的 “仪表 板 ”, 选 择 “ 操 作 ”, 弹 出 “操作 ”窗口 。 
。 在 “操作 ”窗口 中 单 击 “ 添 加 操作 ”按钮 ,选择 “突出 显示 ”, 弹 出 “添加 突出 显示 操 
作 ” 窗 口 。 
。 在 该 窗口 中 ,在 “名 称 ” 部 分 将 该 动作 命名 为 “突出 显示 各 省 ”。 在 “ 源 工作 表 ” 中 勾 
选 “ 索 赔 分 析 ”, 在 “运行 操作 方式 ”部 分 选择 “选择 ”。 在 “目标 工作 表 ” 部 分 色 选 
“索赔 与 赔付 降序 分 析 ” 和 “索赔 分 析 ”。 设 置 结果 如 图 5-59 所 示 。 
。 单 击 “ 确 定 ” 按 钮 ,关闭 “添加 突出 显示 操作 ”窗口 。 


添加 突出 显示 操作 
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图 5-59 设置 仪表 板 的 突出 显示 动作 


至 此 ,完成 了 仪表 板 的 制作 ,将 此 仪表 板 命名 为 “索赔 与 预测 分 析 ”。 

点 击 仪表 板 中 “索赔 分 析 ” 工 作 表 中 的 某 个 图 标 , 则 “各 省 索赔 与 赔付 情况 ”将 同步 变 
化 为 只 显示 所 选 定 的 省 份 的 分 析 情 况 , 并 且 在 “索赔 与 赔付 降序 分 析 ” 工 作 表 上 将 高 亮度 
显示 出 该 省 的 数据 ,如 图 5-60 所 示 。 

在 仪表 板 中 ,将 “请 选择 区 域 " 的 筛选 条 件 选 定 为 “华南 ”, 将 “请 选择 年 龄 区 间 ?” 的 得 

选 条件 选 定 为 “40-49”, 仪 表 板 的 分 析 样 式 如 图 5-61 所 示 。 
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图 5-60 在 “索赔 分 析 ” 中 选中 某 个 客户 后 的 仪表 板 样式 
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15,000.000 ”10,000,000 5.000.000 00 5.000.000 10,000,000 15,000,000 
索 同 后 省 三 周 付 霹 对 


图 5-61 设 定 筛选 条 件 后 的 仪表 板 样式 
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本 章 通过 两 个 案例 演示 用 RapidMiner 对 数据 进行 可 视 化 挖掘 分 析 的 过 程 ,第 一 个 案 
例 以 某 航 空 公 司 油料 成 本 支出 审计 为 例 , 第 二 个 案例 为 挖掘 分 析 在 推荐 系统 中 的 应 用 。 
我 们 通过 这 两 个 案例 演示 挖掘 分 析 在 不 同 领域 的 应 用 。 

RapidMiner 是 数据 挖掘 和 商业 预测 分 析 领 域 的 备 受 用 户 青睐 的 软件 。RapidMiner 
具有 功能 强大 ,用户 入 门 快 、 操 作 简 单 的 特点 。 用 户 使 用 它 不 需要 任何 编程 知识 ,只 需 通 
过 鼠标 拖 放 ,就 能 完成 数据 挖掘 和 分 析 的 功能 。 


6.1 挖掘 分 析 在 审计 线索 特征 发 现 中 的 应 用 


本 节 以 某 航 空 公司 油料 成 本 支出 审计 案例 为 例 ,介绍 如 何 将 RapidMiner 用 于 特征 发 
现 。 


6.1.1 案例 背景 


审计 组 在 对 某 航 空 公司 2014 年 度 财务 收 支 情况 的 审计 中 了 解 到 ,该 公司 2014 年 
航 油 支出 占 总 支出 的 28. 93%。 因 此 ,审计 组 决定 将 航空 油料 支出 的 真实 性 和 合法 性 
作为 审计 的 一 个 重点 内 容 。 审 计 人 员 了 解 到 ,由 于 当时 国内 航 油价 格 较 国外 航 油价 格 
高 ,国内 部 分 航空 公司 存在 利用 飞机 从 国外 带 油 的 现象 。 为 了 解 该 公司 是 否 确实 存在 
这 种 现象 ,审计 人 员 需 要 对 其 以 往 的 航班 记录 进行 检查 ,核实 其 加 油 量 是 否 大 于 消 
耗 量 。 
6.1.2 数据 准备 


审计 人 员 采 集 了 该 公司 航班 生产 管理 系统 的 底层 数据 ,其 中 包含 了 全 部 与 航班 飞行 
相关 的 信息 。 经 过 数据 清理 和 验证 ,形成 了 三 张 审计 中 间 表 : 分 析 表 _ 飞 行 任务 书 、 附 表 _ 
航 段 信息 表 和 附 表 _ 机 型 说 明 表 。 这 些 数 据 表 的 结构 分 别 见 表 6-1、 表 6-2 和 表 6-3。 
表 6-1 分 析 表 _ 飞 行 任务 书 

















I 记录 号 整 型 
2 日 期 日 期 
3 航班 号 字符 串 
4 公司 字符 串 
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续 表 

序号 字段 名 称 数据 类 型 
5 飞行 队 字符 串 

6 机 号 字符 串 

过 机 型 字符 串 

8 航班 性 质 字符 串 

9 航线 分 类 字符 串 

10 航 段 距离 整 型 

说 原 存 油 整 型 

陪 新 加 油 整 型 

13 留存 油 整 型 

14 加 耗 油 差额 整 型 


表 6-2 附 表 _ 航 段 信息 表 





























序号 字段 名 称 数 据 类 型 
i 航 段 字符 串 
2 起 飞 地 简 码 字符 串 
3 起 飞 地 航 站 名 字符 串 
4 起 飞 地 航 站 类 别 字符 串 
5 目的 地 简 码 字符 串 
6 目的 地 航 站 名 字符 串 
7 目的 地 航 站 类 别 字符 串 
8 航班 类 别 字符 串 

表 6-3” 附 表 _ 机 型 说 明 表 

序号 字段 名 称 数据 类 型 

1 机 型 字符 串 











2 全 称 字符 串 

审计 人 员 需 要 掌握 加 油 量 与 耗 油 量 差额 ,因此 在 "分 析 表 _ 飞 行 任务 书 ? 表 中 增加 了 一 
个 新 的 字段 “加 耗 油 差额 ”, 其 计算 公式 为 “加 耗 油 差额 ”= “加 油 量 一 “ 耗 油 量 ”。 加 油 量 
由 “新 加 油 ” 字 段 反 映 , 耗 油 量 的 计算 公式 为 “ 原 存 油 ” 十 “新 加 油 ” 一 “留存 油 ”, 因 此 ,上 述 
计算 “加 耗 油 差额 ”的 公式 可 以 进一步 简化 为 “留存 油 ” 一 “ 原 存 油 ”。 
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6.1.3 聚 类 分 析 


本 案例 采用 数据 挖掘 中 的 聚 类 分 析 方 法 来 寻找 和 发 现 审计 线索 。 

聚 类 是 根据 * 物 以 类 聚 ?的 原理 ,把 一 组 数据 对 象 划分 成 不 同 分 类 的 过 程 ( 这 样 的 一 个 
分 类 又 称 为 篮 ) ,使 同一 簇 中 的 数据 对 象 有 很 大 的 相似 性 ,而 不 同 簇 的 数据 对 象 之 间 则 有 
很 大 的 差异 性 。 聚 类 分 析 是 按照 某 种 相似 性 自动 聚合 数据 集 , 因 此 聚 类 结果 不 仅 可 以 揭 
示 数 据 间 的 内 在 联系 与 区 别 , 还 可 以 为 进一步 的 数据 分 析 与 知识 发 现 提供 重要 依据 。 聚 
类 分 析 是 数据 挖掘 技术 中 的 重要 组 成 部 分 ,已 经 在 教育 、 交 通 、 医 学 、 科 学 研究 等 领域 获得 
了 广泛 应 用 。 常 用 的 聚 类 算法 包括 K-Means、K-Medoids、DBSCAN 、BIRCH CURE、 
CHAMELEON 等 ,本 案例 采用 K-Means 聚 类 算法 。 

本 案例 中 某 航 空 公司 燃油 分 析 的 审计 数据 表 保 存在 SQL Server 2012 中 , 聚 类 分 析 
的 软件 是 RapidMiner 7. 2。 下 面 介 绍 从 SQL Server 2012 中 提取 审计 数据 ,在 
RapidMiner 中 完成 聚 类 分 析 的 过 程 

(1) 启动 RapidMiner 软件 , 单 击 *Repository” 标 签 下方 的 "Add Data” 按 钮 ,弹出 加 载 
数据 库 的 窗口 ,如 图 6-1 所 示 。 






































WD new proce Educatonal 1.2.002 VOCT3XAIANPSUXY 要 
Ele Eat Process Yen Comelimport Dete - Whereis your dato? 
加 
| 
Where is your data? 

Repositoy 

| 四 Madpaa 

» 国 samplos | 副 wcompue 围 patatase 
»We 

| 国 LocalRepository omnsrao) 

| Set 3uppo't for more goto sourcss tom he Rapidyinsr Narketelace! 
» Cloud Reposton socornectedh 

Operators 
|» 国 Data Accass (45) 
| 

> lenang (7) 

» a Cleansing (26) 
| a Modeiing (129) 

» a scoring (0) 
|» Ba Validation (20) 
| » 国 Utiiy (05) 
| Exteneions (17) 

Get ora Onarators | | Rene 

















图 6-1 加 载 数据 库 窗口 


(2) 在 如 图 6-1 所 示 的 图 中 选择 “Database” 选 项 ,软件 提示 输入 数据 库 所 在 的 位 置 ， 
如 图 6-2 所 示 。 单 击 “New Connection” 按 钮 ,软件 提示 输入 与 SQL Server 数据 库 连 接 的 
有 关 参 数 , 如 图 6-3 所 示 。 

(3) 数据 库 连 接 参 数 的 详细 介绍 如 表 6-4 所 示 。 输 入 连接 参数 后 , 单 击 “OK” 按 钮 。 
如 果 能 正确 连接 到 数据 库 , 则 软件 显示 数据 库 包 含 的 全 部 数据 表 , 用 户 可 以 进一步 从 这 些 
数据 表 中 查询 提取 所 需要 的 数据 ,如 图 6-4 所 示 。 


i 要 信 闻 
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Import Data - Select the data location. 


Select the data location. 





医 New connecion1 microson sat Server UTOSY locaihost 1433) 














| 中 New comneaion | edtcomedion | 如 TestComnecion | 
Editthe selected database connection | 一 














Import 
















图 6-2 填写 数据 库 所 在 位 置 


Select the data location 


Select the data location. 





WD Manage Database Connections 


E Within this dialog., you can create, editand delete connections to databases. 


Avallable Connections Connection Detalls 


Name 
New connection 1 (Microsoft SQL Server (JTDS) localhost- 1433) 
医 人 -| pop | 鸭 ^aanced- | 
萎 New connection2 (wicroson SQL Server uTosh localhost 1433) 一 一 
Database system 


Microsoft SQL Server (JTDS) 





Host 
localhost 

Database scheme 

某 航 空 公司 控 握 分 析 数据 








jdbcjlds sqlservermocalhost1433 





| 加 connection ok 












ETIIE E3E 





[Eee (ue ES 








图 6-3 配置 数据 库 连 接 参数 
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Import Data - Build a query to create a data table. 


Tables 





dbo 附 表 _ 航 段 信息 表 
dbo 附 表 机 型 说 明 表 
dbo 主 表 飞行 任务 书 


国 | dbo 分 析 夫 飞行 任务 书记 录 呈 


Build a query to create a data table. 


Aibutes Where Clause 





dbo 分 析 表 飞 行 任务 书 日 期 


dbo 分 析 表 飞行 任务 书 公司 


入 
dbo 分 析 表 飞行 任务 书 航班 号 : 


sys trace_xe_action_map 
sys .ace_xe_event_map 


dbo 分 析 表 飞行 任务 书 -飞行 队 

dbo 分 析 表 飞行 任务 书 机 号 

dbo 分 析 表 _ 飞 行 任务 书 机 型 

dbo 分 析 表 飞行 任务 书 航班 性 质 

dbo 分析 表 _ 飞 行 任务 书 航线 分 类 

dbo 分 析 表 飞行 任务 书 班次 

dbo 分 析 表 _ 飞 行 任务 书 航线 

dbo 分 析 表 _ 飞 行 任务 书 航 段 v 
SQL Query 

1 | SELECT * 

2 | FROM "dbo"." 分 析 胡 飞行 任务 书 ” 








[pwows | hot M ome | 
图 6-4 进一步 选择 需要 提取 的 数据 项 


表 6-4 数据 库 连接 参数 设置 

















参数 名 称 中 文 释义 本 案例 的 输入 值 
Name 与 数据 库 连接 的 名 称 Audit data 
Database system 所 连接 的 数据 库 类 型 Microsoft SQL Server(JTDS) 
Host 数据 库 的 IP 地 址 Localhost 
Port 数据 库 的 连接 端口 1433 
Database scheme 数据 库 名 称 某 航 空 公司 挖掘 分 析 数 据 








(4) 单 击 图 6-4 上 的 “Next” 按 钮 ,软件 弹出 如 图 6-5 所 示 的 窗口 ,提示 选择 保存 数据 
的 位 置 。 本 案例 选择 保存 在 “Local Repository” 下 的 “Data” 文 件 夹 中 ,输入 数据 的 名 字 为 
“ 某 航 空 公 司 挖掘 分 析 数 据 ”。 

(5) 构建 聚 类 分 析 流 程 。 如 图 6-6 所 示 ,首先 从 “Repository” 中 把 刚才 保存 在 “Data” 
中 的 数据 库 拖 放 到 流程 窗口 ,再 从 分 析 处 理 模块 中 找到 "Select Attributes” 模 块 和 
“K-Means” 聚 类 算法 模块 ,把 它们 分 别 拖 放 到 流程 窗口 中 。.“K-Means” 聚 类 算法 模块 在 
流程 窗口 中 显示 的 标识 是 “Clustering”。 用 连 线 按照 如 图 6-6 所 示 的 样 例 把 数据 库 模 块 、 
“Select Attributes” 模 块 和 "K-Means” 聚 类 算法 模块 连接 起 来 。 注 意 :“K-Means” 聚 类 算 
法 模块 和 流程 窗口 最 右 侧 的 输出 接口 也 要 用 连 线 连接 起 来 。 

(6) 配置 参数 。 首 先 配 置 “Select Attributes” 模 块 。“Select Attributes” 模 块 的 作用 
是 从 数据 库 中 进一步 选择 “K-Means” 聚 类 算法 所 需要 的 属性 。 在 如 图 6-6 所 示 的 流程 设 
计 窗 口中 选择 “Select Attributes” 模 块 ,显示 “Select Attributes” 模 块 参数 如 图 6-7 所 示 。 
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Import Data - Where to store the data? x 


Where to store the data? 


国 Local Repository ， 








» a cloud Repositoy 








Name | 叶 航 空 公司 控 气 分 析 才 所 ] 





Location 作 ocal Repositoryldata/ 昔 航空 公司 挖掘 分 析 数 据 


[mow | Emer | 其 cmom | 








图 6-5 选择 数据 存放 的 位 置 








Process X 
@ process ， 100% 凡 只 只 尿 人 时 国 
Proce 
Retrieve dbo. 分 析 表 .Select Attributes Clustering 
inp out xa xia exa oh 一 
1 图 ori 图 -一 res ( 





Leverage the Wisdom of Crowds to get operator recommendations based on your process design! 











| LS Activate Wisdom of Crowds 





图 6-6 聚 类 分 析 流 程 窗口 


其 中 主要 配置 的 参数 是 “attribute filter type”, 代 表 “ 选 择 数据 属性 的 方式 ”, 在 本 例 中 ,我 

们 选择 “Subset”, 表 示 要 从 数据 库 中 选择 一 部 分 属性 参与 后 续 的 聚 类 算法 。 当 我 们 在 

“attribute filter type” 参 数 栏 选择 “Subset” 后 ,下 面 的 “Attributes” 栏 自动 切换 成 “Select 

Attributes” 按 钮 , 单 击 这 个 按钮 ,弹出 如 图 6-8 所 示 的 窗口 ,窗口 的 左 半 部 分 显示 数据 表 
“ 2 
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的 所 有 属性 , 右 半 部 分 是 所 选取 参数 与 聚 类 算法 的 属性 。 可 以 通过 单 击 图 中 的 左右 箭头 
添加 或 者 移 除 数据 属性 。 本 案例 选择 “公司 ”飞行 队 交 航线 分 类 交 航 班 性 质 ” 航 段 分 类 ?” 


“ 航 段 距离 ”> 和 "加 耗 油 差额 ”七 个 属性 。 


Parameters x 


园 Select Attributes 


attribute filter type subset 了 | 里 
attributes 访 Select Attributes... OD 
站 invert selection [9 


|_ | include special attributes [fy 


Help x | 


图 Select Attributes 
RapidMiner Studio Core 


Tags: Filter, Keep, Remove, Drop, Delete 
Columns, Variables, Features, Feature Set, 








图 6-7 Select Attributes 参数 配置 


出 Select Attributes: attributes 
三 SD selectAtributes: attributes 
取信 The attribute which should be chosen. 


Alttributes Selected Attributes 








儿童 入 公司 
公务 加 糙 油 关 颁 
原 存 油 航 段 分 类 
可 殿 和 | 载 航 段 距 高 
可 殿 座位 | 航班 性 质 
EE | 8 | 
噶 儿 | ~ 了 人 
成 人 | | 

新 加 油 | 

日 期 | 

机 号 | 

机 型 

了 次 

留存 油 

入 名 b4 











图 6-8 选择 参与 K-Means 算法 的 属性 
-128% 
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Parameters x 


团 Clustering (k-Means) 


V add cluster attribute 

| add as label 

_ | remove unlabeled 
k 10 
max runs 10 

| determine good startvalues 
measure types 
mixed measure 
SS Hide advanced parameters 
Help x 

图 K-Means 


RapidMiner Studio Core 


Tags: Unsupervised Clustering, 
Segmentation, Grouping, Similarity, 








MixedMeasures v | @ 


MixedEuclidea.. v |@ v 


Similarities, Euclidean, Distances, Centroids 


KMeans, Kmeans, Kmeans 





图 6-9 K-Means 算法 参数 配置 


其 次 配置 5K-Means” 聚 类 算法 的 运行 参数 。 在 如 图 6-6 所 示 的 流程 设计 窗口 选择 
“Clustering” 模 块 , 显 示 “Clustering” 模 块 的 参数 如 图 6-9 所 示 。 其 中 主要 的 参数 及 其 释 


义 如 表 6-5 所 示 。 


参数 名 称 


表 6-5 
中 文 释义 


“K-Means” 聚 类 算法 参数 


本 案例 的 输入 值 





add 


cluster attribute 


如 果 勾 选 这 个 选项 ,在 聚 类 结果 中 会 
显示 “cluster”( 簇 ) 属 性 及 其 取 值 


选择 在 聚 类 结果 中 显示 ”cluster”( 艇 ) 属 
性 及 其 取 值 





k 


设置 把 数据 分 成 几 个 入 


K 设置 成 10, 表 示 把 数据 分 成 10 个 簇 





measure type 





选择 聚 类 的 计算 方式 





MixedMeasures ,表示 选择 混合 欧式 距 
离 计算 


(7) 单 击 流程 的 运行 按钮 ,启动 数据 分 析 , 获 得 聚 类 分 析 的 结果 ,如 图 6-10 所 示 。 本 
案例 中 , 聚 类 分 析 结 果 中 出 现 了 “cluster” 一 列 , 数 据 被 分 为 10 类 (cluster0~cluster9) , 如 
图 6-10 所 示 的 是 “分 类 9” 的 特征 。 从 图 中 可 以 看 出 ,这 个 分 类 中 存在 加 油 量 大 于 消耗 油 
的 现象 (加 耗 油 差额 大 于 30 000) ,并 且 “ 航 段 分 类 ”和 “航线 分 类 ”这 两 个 属性 的 特征 值 均 
为 “国际 ”, 说 明 该 航空 公司 可 能 存在 从 境外 带 油 的 行为 。 

此 外 ,RapidMiner 还 对 数据 结果 提供 了 丰富 的 统计 和 可 视 化 工具 ,如 图 6-10 最 左边 
一 栏 所 示 。 主 要 是 “Data””Statistics”“Charts” 和 “Advanced Charts”。 下 面 简单 介绍 它们 
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WW <new process'> -RapidMiner Studio Educational 7.2.002 四 YGQT3XAJANPSUXV ”~ 大 
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图 6-10 聚 类 分 析 的 结果 


的 使 用 方法 。 

选择 “Data”, 系 统 将 把 结果 以 数据 列表 的 形式 显示 出 来 ,如 图 6-10 所 示 。 用 户 可 以 
单 击 数据 列表 中 的 列 名 来 实现 排序 。 例 如 , 单 击 “cluster”, 数 据 列表 将 会 按照 *cluster” 以 
升序 或 者 降序 的 形式 实现 排序 。 

RapidMiner 还 能 够 对 数据 结果 进行 统计 。 单 击 图 6-10 中 的 “Statistics”, 弹出 如 
图 6-11 所 示 的 统计 窗口 。 窗 口 显示 出 对 数据 表 中 各 个 属性 的 统计 结果 。 单 击 其 中 的 一 
个 属性 ,会 进一步 显示 详细 的 统计 信息 ,例如 , 单 击 选择 “cluster”, 显示 关于 "cluster 的 
统计 结果 ,其 中 第 9 个 簇 (cluster 9) 中 的 记录 数 最 少 ,有 69 条 ;第 7 个 簇 (cluster 7) 的 记 
录 数 最 多 ,有 27 637 条 。 再 单 击 “cluster” 中 的 “Values”, 系 统 会 统计 并 显示 各 个 复 的 记 
录 数 ,如 图 6-12 所 示 。 通 过 这 个 统计 表 , 我 们 可 以 清楚 掌握 各 个 簇 中 的 记录 数目 以 及 它 
们 在 总 数 中 的 占 比 。 例 如 ,第 7 个 簇 (cluster 7) 的 记录 数 最 多 ,有 27 637 条 记录 , 占 总 数 
的 68.2%。 

在 图 6-10 中 选择 “Charts” ,系统 将 会 显示 出 丰富 的 可 视 化 分 析 窗 口 , 如 图 6-13 所 示 。 
其 中 “Chart style” 代 表 可 以 选择 的 统计 图 形 种 类 ,如 图 6-14 所 示 。 可 以 根据 需要 选择 散 
点 图 、 直 方 图 、 饼 图 折线 图 等 33 种 统计 图 形 。“Plots” 显 示 数 据 属性 ,选择 其 中 的 一 个 ， 
系统 将 会 按照 “Chart style” 中 所 选择 的 统计 图 形 显示 出 这 个 属性 的 所 有 数据 。 例 如 ， 
图 6-13 中 ,在 “Chart style” 中 选择 直方 图 (Histogram ) , 在 “Plots” 中 选择 “cluster” 属 性 ， 
系统 右边 将 显示 关于 各 个 簇 中 记录 条 数 的 直方 图 。 从 图 中 我 们 可 以 直观 地 看 出 第 7 个 簇 
(cluster 7) 中 的 记录 数 最 多 ,而 第 9 个 艇 (cluster 9) 中 的 记录 数 最 少 。 

图 6-10 中 的 “Advanced Charts” 提 供 了 更 加 丰富 和 灵活 的 可 视 化 分 析 功 能 ,用 户 可 
以 自己 定义 多 种 维度 的 数据 显示 效果 ,也 可 以 在 一 个 图 中 对 比 显示 多 个 属性 的 数据 特 
征 , 如 图 6-15 所 示 。 图 中 “Attributes” 表 示 数 据 的 属性 ,“Chart configuration” 表 示 如 何 
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图 6-11 “cluster” 属 性 的 统计 结果 





贤 Nominal values x 
Index | Nominal value | Absolute count | Fraction 
1 cluster_7 | 27637 | 0.682 
2 Cluster_8 6034 0.149 
3 cluster_ 6 2616 0.065 
4 cluster_5 1196 0.030 

$5 cluster_1 1068 0.026 
6 cluster_0 624 0.015 
7 cluster_4 556 0.014 
8 cluster_2 363 0.009 
9 Cluster_3 335 0.008 
10 cluster_9 69 0.002 





Xx Close | 





图 6-12 各 个 簇 中 的 记录 数 统计 


设置 图 形 显 示 参 数 , 其 中 “Domain dimension” 代 表 横 坐标 轴 ,“Numerical axis” 代 表 纵 坐 
标 轴 。 我 们 可 以 从 “Attributes” 中 选择 属性 拖 放 到 “Chart configuration” 中 作为 坐标 轴 
的 数据 。 例 如 ,图 中 我 们 把 属性 “cluster” 拖 放 到 “Domain dimension” 作 为 横 坐 标 ,把 属 
性 “加 耗 油 差额 ” 拖 放 到 “Numerical axis” 作 为 纵 坐 标 ,右边 的 坐标 图 将 显示 各 个 复 中 加 
耗 油 差额 的 分 布 。 从 坐标 图 中 可 以 看 到 ,第 10 个 簇 (cluster 9) .第 4 个 复 (Ccluster 3) 和 
第 5 个 复 (cluster 4) 中 “加 耗 油 差额 * 存 在 大 于 15 000 的 情况 ,可 能 存在 从 境外 带 油 的 
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图 6-14 统计 图 形 列 表 





行为 。 因 此 审计 人 员 可 以 重点 对 这 三 个 簇 中 的 数据 进行 分 析 查 证 。 通 过 这 个 例子 ,我 
们 可 以 看 到 ,借助 RapidMiner 强大 的 可 视 化 的 手段 ,审计 人 员 可 以 很 容易 地 锁定 审计 


分 析 的 重点 数据 。 
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图 6-15 ”高 级 的 可 视 化 分 析 窗口 


6.2 挖掘 分 析 在 推荐 系统 中 的 应 用 


6.2.1 案例 背景 


随 着 电子 商务 规模 的 不 断 扩 大 ,商品 数量 和 种 类 快速 增长 ,顾客 需要 花费 大 量 的 时 间 
才能 找到 自己 心仪 的 商品 。 为 了 解决 这 个 问题 ,推荐 系统 应 运 而 生 。 推 荐 系统 是 建立 在 
海量 数据 挖掘 基础 上 的 一 种 商务 智能 平台 , 它 是 根据 顾客 的 需求 .兴趣 等 ,将 顾客 感 兴趣 
的 商品 推荐 给 顾客 的 个 性 化 服务 系统 。 

基于 用 户 相 似 度 的 协同 过 滤 推 荐 系统 是 目前 广泛 使 用 的 一 种 推荐 系统 , 它 推荐 商品 
的 原理 是 “ 跟 你 喜好 相似 的 人 喜欢 的 东西 你 也 很 有 可 能 喜欢 ”。 构 建 这 种 推荐 系统 需要 分 
成 两 个 阶段 ,首先 是 建立 推荐 模型 ,利用 顾客 已 知 的 消费 数据 和 推荐 算法 ,通过 训练 获得 
推荐 模型 ;其 次 是 推荐 阶段 ,使 用 所 构建 的 推荐 模型 对 其 他 顾客 进行 相关 商品 的 推荐 。 

现 有 一 商家 在 其 电子 商务 网 站 拥有 顾客 对 各 种 商品 的 评分 数据 ,利用 RapidMiner 帮 
助 该 商家 构建 基于 用 户 相 似 度 的 协同 过 滤 推 荐 系统 ,以 便 向 其 他 爱好 相似 的 顾客 推荐 相 
关 商 品 。 

6.2.2 数据 准备 

首先 需要 采集 数据 ,利用 网 络 怜 虫 从 电子 商务 网 站 上 获取 顾客 对 商品 的 评分 数据 , 然 
后 对 这 些 数据 进行 清洗 和 整理 后 ,我 们 获得 两 个 数据 集 : 一 个 是 用 于 构建 推荐 模型 的 建 
模 数 据 集 ; 另 一 个 是 测试 数据 集 。 利 用 构建 好 的 推荐 模型 对 测试 数据 集中 的 顾客 推荐 相 
关 的 商品 。 这 两 个 数据 集 都 只 包含 顾客 编号 .数据 编号 及 商品 评分 三 个 属性 ,如 表 6-6 
所 示 。 
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表 6-6 推荐 系统 使 用 的 数据 集结 构 











名 称 数据 类 型 备 注 
user_id Int 顾客 编号 
item_id Int 商品 编号 

Score Int 商品 评分 








6.2.3 构建 推荐 系统 


下 面 介 绍 基于 上 述 建 模 数据 集 和 测试 数据 集 构 建 推荐 系统 并 进行 测试 的 过 程 。 

1. 导入 建 模 数 据 和 测试 数据 

(1) 启动 RapidMiner 软件 , 单 击 “Repository” 标 签 下 方 的 “Add Data” 按 钮 ,弹出 加 载 
数据 库 的 窗口 ,如 图 6-16 所 示 。 


全 -new process> —RepidMiner sad Echucational 72 
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[Laem| 
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| operators 
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» a Etensions (95) 
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图 6-16 添加 建 模 数 据 


(2) 在 如 图 6-16 所 示 的 图 中 选择 "My Compnuter ”选项 ,软件 提示 输入 本 地 计算 机 中 
建 模 数据 所 在 的 位 置 ,如 图 6-17 所 示 。 找 到 并 选择 “ 建 模 数 据 . txt”( 评 分 数据 保存 在 此 
文件 中 ), 单 击 “Next” 按 钮 ,弹出 如 图 6-18 所 示 的 窗口 。 

(3) 在 图 6-18 中 单 击 “Next” 按 钮 ,弹出 如 图 6-19 所 示 的 窗口 ,系统 给 导入 的 建 模 数 
据 分 配 的 默认 属性 名 分 别 是 “att1”att2” 和 “att3”, 可 以 单 击 每 个 属性 旁边 的 齿轮 符号 来 
修改 默认 的 属性 名 和 数据 类 型 。 本 案例 中 ,我 们 把 三 个 默认 的 数据 属性 分 别 更 改 为 “user 
_id”item_id” 和 “score”, 分 别 代 表 顾 客 编号 、 商 品 编号 和 商品 评分 ,如 图 6-20 所 示 。 

(4) 选择 存放 建 模 数据 的 位 置 。 本 案例 中 ,导入 的 建 模 数 据 存放 在 “Local 
Repository” 下 的 “Data” 文 件 夹 中 ,数据 的 名 字 为 “ 建 模 数据 ”, 如 图 6-21 所 示 。 单 击 
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Import Data - Select the data location. we 
Select the data location. 
商品 评分 所 "| 一 加 蛮 侈 加 器 * 
| she | ype | Last Modified | 
让 一 LastDirecory 251KB 文本 文档 Sep 22, 2016 的 
53KB 文本 文档 Sep 22, 2016 

ly 

奸 模 政 据 外 | 

AlFiles "| 

The selected fle will be imported as: CSV Change 

y pa 
图 6-17 选择 建 模 数据 所 存放 的 位 管 
Import Data - Specify your data format 器 
Specify your data format 
门 HeaderRow 塘 File Encoding | GBK | | MUseQuotes | 
Start Row 8 Escape Character \ | | Trim Lines 

Column Separator Semicolon Decimal Character | | 了 skip Comments 大 | 

1 | 45874270 2348372 4 入 
45874270 3216007 5 
45874270 1261560 5 
45874270 3138847 5 
45874270 1044177 5 
45874270 3142118 5 
45874270 3234345 5 
45874270 3151575 5 
45874270 4219500 5 
45874270 1116367 5 
14 | 45874270 1054889 5 
42 | 45874270 1048173 5 
13 | 45874270 3225658 5 
14 | 45874270 3343988 5 
45874270 3574119 5 
45874270 1322025 5 
147 | 45874270 1865089 5 

v 

Bno problems. 

| 全 Bevous | 一 sea | 其 cao | 








图 6-18 设置 数据 的 格式 
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Import Data ~ Format your columns. 加 
Format your columns. 
Date format | MMM d yy hmmrss az ” 下 Replace errors with missingvalues ® 
att 三 at Ee 
polynominal ChangeType » integer | 

1 | 45874270 | GingeRote | ll a 
| 2 | 45874270 Rename column 5 
074270 Excu[Opens a dialog to rename the column 4 
| 4 | 45874270 3138847 5 
5 | 45874270 1044177 5 
| 6 | 45874270 3142118 5 
了 | 45874270 3234345 5 
8 | 45874270 3151575 5 
9 | 45874270 4219500 5 
| 10 | 45874270 1116367 5 
11 | 45874270 1054889 5 
12 | 45874270 1048173 5 
13 | 45874270 3225658 5 
14 | 45874270 3343988 5 
15 | 45874270 3574119 5 
16 | 45874270 1322025 5 
17 | 45874270 1865089 5 
18 | 2668761 2354909 4 

| Pp ee a x 

加 noproblems. 


全 Penous | 一 sd|| 其 cao | 





图 6-19 设置 建 模 数据 的 属性 名 和 数据 类 型 






































import Data - Format your columns. x 
Format your columns. 
Date format MMM d, yy hmmss az ” Replace errors with missing values 四 
user_id or|itemid |score or 
polynominal integer ‘integer 
1 45874270 2348372 4 人 
2 | 45874270 3216007 5 
| 3 | 45874270 1261560 5 
4 | 45874270 3138847 5 
| 5 | 45874270 1044177 5 区 
| 6 | 45874270 3142118 5 
| 了 | 45874270 3234345 5 
| 8 | 45874270 3151575 5 
9 | 45874270 4219500 5 
| 10 | 45874270 1116367 5 
45874270 1054889 5 
45874270 1048173 5 
13 | 45874270 3225658 5 
14 | 45874270 3343988 5 
15 | 45874270 3574119 5 
16 | 45874270 1322025 5 
17 | 45874270 1865089 5 
18 | 2668761 2354909 4 
Tan | ncen7es Anopec < 3 
@ noproblems. 
| pewous || 一 set 其 co | 
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6-20 ”本 案例 中 建 模 数据 的 属性 名 称 
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“Finish” 按 钮 ,完成 导入 “ 建 模 数 据 ”。 


Import Data - Where to store the data? 





Where to store the data? 
了 思 Local Repository (adminisvaton 
» gata Memmi 


* | processes ~ 





全 Cloud Repositoy 





Name | 建 模 执 据 


Location /Local Repositoryldata 唐 模 数据 





图 6-21 


数据 和 测试 数据 ,如 图 6-22 所 示 。 


窗口 。 


Repository x 


[EE 
选择 导入 的 建 模 数据 的 存放 位 置 





| 图 Adadoaa 





国 samples 
时 ob8 


国 Local Repository (Adminisvator) 


立国 data (Administator) 


国 建 模 数据 (Administrator - v1, 9/22116 4:21| 
| 

国 半数 据 /aminisvator -vi, 22/16 428 

» |] processes (Administator) 


Cloud Repository (disconnected) 








图 6-22 导入 建 模 数据 和 测试 数据 
2. 下 载 并 安装 推荐 算法 模块 





(5) 用 同样 的 方法 导入 “测试 数据 ?后 ,在 "Local Repository” 区 域 会 出 现 导入 的 建 模 


(1) 如 图 6-23 所 示 ,在 RapidMiner 主 界面 的 菜单 栏 单 击 “Extensions”, 在 弹出 的 子 
菜单 中 进一步 选择 “MarketPlace(Updates and Extensions)”, 弹 出 如 图 6-24 所 示 的 
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图 6-23 在 RapidMiner 主 界面 的 菜单 栏 选择 安装 扩展 模块 


(2) 在 如 图 6-24 所 示 的 窗口 中 选择 “Search” 标 签 并 输入 “recomm” 查 找到 
“Recommender Extension5. 1. 2”, 单 击 “Install Packages” 按 钮 开始 安装 推荐 算法 模块 。 
安装 完成 后 ,在 RapidMiner 的 主 界面 的 数据 处 理 模块 区 域 会 出 现 *“Recommender”, 如 
图 6-25 所 示 。 在 后 续 构 建 推荐 系统 时 ,我 们 会 从 中 选择 相应 的 推荐 算法 。 











recomm 


WW RapidMiner Marketplace 


Select components to install and update below. Updates to RapidMiner Studio will always be installed globally. Any global update requires administrator 
privileges, both during the update and the subsequent restart 





Recommender Extension 5 12 


(8) This is the recommender edension 


V Packageis upto date 


MLWizard 5.3.1 

The MLWizard Automatic System 
Construction Wizard is a tool for supporting 
you in constructing a classification process 
within RapidMiner 

Notinstalled 


You are notlogged in. (Login orreqisten 


Search Updales TopDownloads Top Rated | Purchased Bookmarks 


| Search | Recommender Extension 





Version 512 

Release date May 3, 2016 
| Fiesize 335 旧 

License AGPL 


Recommender system extension contains operators that are suited for typical recommendation tasks: fltering 
information for the particular user via 


-Predicing most-probable ratings for the iems of some DMR (rating predicions task) 
-Ranking non-seen items by the user according to estimated (Top-N ltems task) 


Besides providing operators that return predictions based on user-item preference data, extension includes 
specific operators enabling model application and evaluation, and is accompanied with utility tools like dataset 
meta-data extraction operator and workflows enabling large scale experiments for optimizing performance 
trade-off for specific problems. 


Go to extension homepage 
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3. 构建 推荐 系统 

如 图 6-26 所 示 ,推荐 系统 由 两 部 分 组 成 : 一 个 是 建 
立 推荐 模型 ,选择 “ 建 模 数据 模块 “设置 角色 模块 ”和 
“User 一 KNN” 推 荐 算法 模块 并 拖 放 到 流程 窗口 的 上 面 
一 行 ,这 一 行 的 模块 用 于 构建 推荐 模型 ; 另 一 个 是 应 用 
推荐 模型 来 完成 推荐 任务 ,选择 “测试 数据 模块 “设置 
角色 模块 "和 “Apply Model” 模 块 并 拖 放 到 流程 窗口 的 
下 面 一 行 中 ,这 一 行 的 模块 利用 上 述 构建 好 的 推荐 模型 
向 测试 数据 中 的 顾客 推荐 相关 的 商品 ,其 中 “Apply 
Model” 模 块 的 作用 是 使 用 构建 好 的 推荐 模型 。 把 各 个 [estuon 3 
模块 按照 图 6-26 中 的 样式 用 连 线 连 接 起 来 。 图 6-25 安装 好 的 推荐 算法 模块 

4. 配置 参数 

对 图 6-26 中 的 各 个 “设置 角色 ”模块 和 “User 一 KNN” 推 荐 算法 模块 分 别 设置 参数 ， 
如 图 6-27 一 图 6-30 所 示 。 其 中 图 6-27 和 图 6-28 分 别 对 构建 推荐 模型 阶段 的 两 个 “设置 
角色 ”模块 中 的 顾客 编号 和 商品 编号 进行 配置 ,图 6-29 是 对 测试 阶段 “设置 角色 ”模块 中 
的 顾客 编号 进行 配置 ,图 6-30 是 设置 “User 一 KNN” 算 法 对 每 个 顾客 推荐 商品 的 数量 ,本 
例 设置 为 n 二 5, 意味 着 推荐 模型 只 向 测试 数据 中 的 每 个 顾客 最 多 推荐 5 件 商 品 。 
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图 6-26 构建 推荐 系统 


5. 运行 流程 

单 击 流程 的 运行 按钮 ,推荐 系统 对 测试 数据 集中 的 顾客 推荐 商品 ,推荐 结果 如 
图 6-31 所 示 。 图 中 “user_id” 代 表 顾 客 编号 ,“item_id” 代 表 商 品 编号 ,“rank” 代 表 推 荐 的 
优先 级 (1 代表 最 高 优先 级 ,5 代表 最 低 优先 级 )。 例 如 ,图 中 对 编号 为 “44240613” 的 顾客 ， 
推荐 编号 是 “3323633”“1044177”“ 3138847”“1261560” 和 “4273386”5 件 商品 ,其 中 
“3323633” 推 荐 的 优先 级 最 高 ,“4273386” 推 荐 的 优先 级 最 低 。 
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Parameters 
车 Set Role 


attribute name user_id 


target role user identification 


多 EditList (0)... 


set additional roles 


图 6-27 设置 顾客 编号 


Parameters x 
最 Set Role (3) (Set Role) 


attribute name user_id 


target role User identification 


set additional roles 胞 EditList(0).. 
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图 6-29 
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设置 测试 阶段 的 顾客 编号 


Parameters Xx 


可 Set Role (2) (Set Role) 


attribute name 


target role item identification 


set additional roles 多 Edit List(0)... 





图 6-28 设置 商品 编号 


Parameters x 
», Apply Model (Apply Model (ltem Recomme... 


5 DO 


Online updates 加 








图 6-30 设置 推荐 商品 的 数量 
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Result History x 国 ExampleSet(Apply Model) > 
ExampleSet (1205 examples, 0 special alibutes, 3 regular altibutes) Fiter (1,205 1 1,205 examples} | all ” 
| own I user_id em i I rank 
1 44240613 3323633 1 
| = 44240613 1044177 2 
导 3 44240613 3138847 3 
外 4 44240613 1261560 4 
5 44240613 4273386 5 
可 6 14444492 3323633 1 
chars 7 14444492 1044177 2 
8 14444492 3138847 3 
图 9 14444492 1261560 4 
| 10 14444492 4273386 5 
ee 1 17514388 3323633 1 
12 17514388 1044177 2 
但 17514388 3138847 3 
14 17514388 1261560 4 
全 17514388 4273386 5 
16 4049617 3323633 1 
7 4049617 1044177 2 
18 4049617 3138847 3 
19 4049617 1261560 4 
20 4049617 4273386 5 
21 0 1205429 1 vy 











图 6-31 对 用 户 推 荐 的 商品 结果 
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在 大 数据 应 用 分 析 中 ,分 析 人 员 要 运用 的 数据 类 型 繁多 、 体 量 庞大 、 来 源 杂 乱 ,在 分 析 
过 程 中 产生 的 数字 信息 也 越 来 越 丰 富 。 如 何 有 效 地 组 织 、 管 理 和 维护 海量 的 数据 和 信息 ， 
以 便 分 析 人 员 访 问 并 综合 利用 ,是 一 个 重要 问题 。 近 年 来 ,元 数据 管理 技术 日 益 成 熟 ,元 
数据 作为 描述 数据 的 数据 的 作用 已 变 得 越 来 越 重 要 ,成 为 数据 信息 资源 有 效 管理 和 应 用 
的 重要 手段 。 充 分 利用 元 数据 管理 技术 ,结合 分 析 需 要 制定 一 套 科学 的 、 适 用 的 元 数据 规 
范 , 是 十 分 必要 的 。 本 章 我 们 以 大 数据 的 审计 应 用 分 析 为 例 ,紧密 结合 大 数据 应 用 分 析 的 
实际 需求 ,探索 建立 相关 内 容 的 元 数据 规范 。 


7.1 元 数据 简介 


7.1.1 元 数据 和 对 象 数据 


元 数据 是 英文 单词 “metadata” 的 中 文 意译 , 若 从 英文 直译 则 为 “关于 数据 的 数据 或 描 
述 其 他 信息 的 数据 ”。 通 俗 地 讲 , 元 数据 就 是 描述 数字 信息 资源 特征 的 数据 , 它 的 用 途 是 
描述 .识别 和 检索 数字 信息 资源 。 早 在 20 世纪 末 ,元 数据 的 概念 和 相关 工具 就 已 经 出 现 
但 限于 当时 的 数据 量 还 不 够 大 ,而 元 数据 本 身 又 包含 太 多 的 内 容 ， es 
利用 。 而 在 今天 看 来 ,元 数据 正在 成 为 解决 诸多 数据 问题 时 必须 抓 住 的 一 个 “精髓 ?要 

与 元 数据 相对 应 的 一 个 概念 是 对 象 数据 。 对 象 数据 就 是 指数 字 信 息 资 源 本 身 ， ee 
以 是 以 各 种 形式 存在 的 数字 信息 ,如 Word 文件 .Excel 文件 .图 像 . 声 音 和 视频 等 。 以 图 
书馆 为 例 , 可 以 将 图 书馆 中 的 每 一 本 书 的 正文 内 容 看 作对 象 数据 ,将 书 的 书 名 、 作 者 、 版 
本 、 出 版 社 、 出 版 时 间 、 内 容 简 介 和 馆藏 位 置 等 信息 编制 成 一 条 卡片 目录 。 这 条 关于 图 书 
的 卡片 目录 的 内 容 就 可 以 称 作 元 数据 。 显 然 , 有 了 卡片 目录 ,读者 查询 图 书信 息 就 方便 快 
捷 了 很 多 ,读者 可 以 在 图 书馆 的 卡片 目录 中 查找 所 需 图 书 的 元 数据 (该 图 书 的 书 名 、 作 者 、 
版 本 .出 版 社 . 出 版 时 间 内 容 简介 和 馆藏 位 置 等 信息 ), 然 后 图 书 管理 员 就 可 以 根据 读者 
提供 的 图 书 元 数据 找到 读者 所 需要 的 对 象 数 据 (书籍 ) 。 


7.1.2 应 用 元 数据 管理 技术 的 意义 


首先 ,大 数据 资源 具有 多 种 多 样 的 格式 和 控制 方式 ,不 容易 被 人 们 直接 检索 。 例 如 ， 
数字 资源 可 能 以 多 种 形式 存在 , 既 可 以 是 Word 文档 ,也 可 以 是 社交 网 页 、 图 像 , 声 音 和 视 
频 , 还 可 以 是 卫星 ,传感器 数据 。 用 户 可 能 不 太 了 解 和 熟悉 其 中 的 某 种 格式 的 数字 资源 ， 
因而 直接 在 对 象 数据 中 查找 所 需要 的 信息 会 比较 困难 ;另外 ,数字 资源 的 存 取 是 受 控制 
的 ,也许 它 的 内 容 被 加 密 了 或 者 它 的 内 容 层 层 解码 、 降 维 以 后 才能 访问 ,那么 在 这 种 情况 
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下 直接 检索 对 象 数据 也 是 很 困难 的 。 如 果 设 置 了 元 数据 来 描述 对 象 数据 的 特征 和 存放 的 
位 置 , 人 们 只 需 以 统一 的 方式 在 元 数据 中 检索 就 可 以 方便 迅速 地 查找 到 自己 需要 的 对 象 
数据 ,而 不 会 被 对 象 数据 格式 的 多 样 性 和 控制 方式 所 影响 。 

其 次 ,设置 元 数据 可 以 提高 检索 的 效率 。 例 如 ,假设 现 有 750 万 份 文献 ,每 份 文献 有 
200 页 ,每 页 有 400 个 汉字 。 按 一 个 汉字 使 用 2 字 节 计算 ,如 果 将 这 些 文献 数字 化 ,需要 
的 存储 空间 为 : 7 500 000X200X400X2=1 200GB(GB 代表 亿 字 节 )。 如 果 直 接 在 这 
1 200GB 的 全 文中 检索 我 们 需要 的 信息 ,所 使 用 的 时 间 和 检索 出 的 无 用 的 信息 都 是 难以 
想象 的 。 如 果 采 用 元 数据 方式 ,假设 描述 每 份 文献 平均 需要 1 500 字 节 ,那么 这 些 文献 的 
元 数据 的 存储 空间 为 : 7 500 000X1 500=11. 25GB。 毫 无 疑问 ,11. 25GB 的 数据 量 远 远 
小 于 1 200GB, 在 这 11. 25GB 的 元 数据 中 检索 所 需要 的 文献 ,与 简单 的 全 文 检索 相 比 ,使 
用 的 时 间 将 大 为 缩减 ,检索 出 信息 的 准确 率 将 得 到 极 大 的 提高 。 

最 后 ,通过 元 数据 和 对 象 数据 来 管理 数字 资源 具有 良好 的 可 扩展 性 。 如 果 把 所 有 的 
数字 资源 全 部 放 在 一 台 计 算 机 中 供用 户 使 用 ,那么 随 着 数字 资源 增加 到 一 定 的 数量 ,计算 
机 将 由 于 容量 有 限 而 不 能 保存 新 增加 的 数字 资源 ,并 且 当 存在 大 量 的 用 户 让 一 台 计 算 机 
在 如 此 众多 的 数字 资源 中 查找 所 需要 的 信息 时 ,计算 机 检索 所 使 用 的 时 间 和 检索 出 的 无 
用 的 信息 都 是 用 户 无 法 接受 的 。 如 果 通 过 元 数据 和 对 象 数 据 两 种 方式 进行 管理 ,情况 将 
会 发 生 很 大 的 变化 。 由 于 元 数据 的 数据 量 比 对 象 数 据 的 数据 量 小 很 多 ,可 以 把 元 数据 集 
中 存放 在 一 台 计 算 机 中 供 所 有 的 用 户 查 询 使 用 ,而 对 象 数据 不 必 集 中 保存 在 一 台 计 算 机 
中 ,可 以 充分 利用 云 计 算 ,保存 在 地 理 位 置 分 散 的 多 个 计算 机 系统 中 。 用 户 、 保 存 元 数据 
的 计算 机 和 保存 对 象 数据 的 计算 机 通过 网 络 连接 起 来 。 用 户 通过 网 络 查询 元 数据 找到 对 
象 数 据 的 保存 位 置 ,然后 再 通过 网 络 从 保存 的 位 置 获 得 所 需要 的 数字 资源 。 这 个 过 程 如 
图 7-1 所 示 。 





保存 元 数据 
的 服务 器 前 


用 户 计算 机 保存 对 象 数据 
的 服务 器 


图 7-1 基于 元 数据 和 对 象 数据 的 组 织 管理 方式 














在 网 络 环境 中 ,往往 只 需 几 秒 钟 的 时 间 就 能 完成 上 述 数字 资源 的 检索 和 使 用 。 如 果 
某 个 单位 想 要 增加 数字 资源 ,只 需 把 增加 的 数字 资源 放 和 保存 对 象 数据 的 计算 机 中 ,然后 
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再 把 相应 元 数据 上 传 到 保存 元 数据 的 计算 机 中 ,就 可 以 让 所 有 用 户 查 找到 新 增加 的 数字 
资源 。 只 要 把 地 理 位 置 分 散 的 各 个 单位 的 元 数据 放 到 网 络 上 供用 户 共享 和 检索 使 用 ,就 
可 以 有 效 地 解决 各 个 单位 资源 利用 的 关键 问题 ,用 户 通过 检索 元 数据 就 能 知道 谁 有 什么 
对 象 数据 ,从 而 有 效 地 提高 这 些 对 象 数 据 的 利用 率 。 


7.2 著录 对 象 分 析 


大 数据 审计 分 析 数 字 信 息 是 审计 数据 分 析 人 员 在 分 析 过 程 中 产生 或 利用 的 数字 资 
源 ,包含 多 个 内 容 , 本 节 结 合 分 析 业 务 , 仅 择 要 分 析 其 中 的 少量 几 项 。 


7.2.1 审计 中 间 表 


1. 定义 及 特点 分 析 

简单 来 说 ,审计 中 间 表 是 审计 人 员 进 行 数 据 分 析 的 对 象 .资源 和 平台 。 它 是 将 转换 、 
清理 、 验 证 后 的 源 数据 按照 提高 审计 分 析 效 率 、 实 现 审计 目的 的 要 求 进 一 步 选 择 .整合 而 
形成 的 数据 集合 。 其 特点 表现 如 下 。 

。 在 表现 形式 上 ,审计 中 间 表 是 有 着 严格 创建 规范 的 审计 数据 ,有 着 较 强 的 业务 性 ， 
审计 人 员 会 根据 具体 的 业务 设计 较为 固定 的 结构 。 
在 内 容 描 述 上 ,审计 中 间 表 与 被 审计 单位 的 生产 经 营 活 动 密切 相关 , 它 随 着 被 审 
计 单 位 业务 量 的 变化 而 变化 ,其 内 容 具 有 动态 性 。 
在 文件 格式 上 ,采取 的 是 SQL Server 的 数据 库 格式 。SQL Server 数据 库 有 两 类 
文件 ,分 别 为 数据 文件 和 日 志文 件 。 

2. 著录 对 象 范围 的 界定 

从 大 类 上 进行 区 分 ,审计 中 间 表 可 划分 为 基础 性 中 间 表 和 分 析 性 中 间 表 。 基 础 性 中 
间 表 是 审计 人 员 结 合 被 审计 单位 的 业务 性 质 和 数据 结构 ,根据 不 同 的 分 析 主 题 生成 的 ,是 
面向 审计 项 目 组 全 体 审 计 人 员 的 。 例 如 在 海关 审计 中 ,基础 性 中 间 表 不 仅 包括 海关 本 身 
的 征 税 、 加 工 贸 易 ,减免 税 等 数据 ,还 包括 码头 、. 船 舶 公司 ` 外 汇 管理 .税收 .电子 口岸 等 方 
面 的 数据 。 分 析 性 中 间 表 是 审计 人 员 在 数据 分 析 过 程 中 ,在 基础 性 中 间 表 的 基础 上 根据 
具体 的 审计 目标 和 分 析 需 求生 成 的 , 它 是 面向 审计 组 中 特定 审计 人 员 的 。 在 这 里 ,我 们 的 
著录 对 象 既 包括 基础 性 中 间 表 ,也 包括 分 析 性 中 间 表 。 

3. 著录 单位 的 界定 

审计 中 间 表 的 著录 单位 是 单 张 表 , 它 是 计算 机 审计 过 程 中 产生 的 最 基本 的 审计 数据 
集合 。 同 一 个 审计 项 目 会 产生 多 张 审 计 中 间 表 ,著录 时 应 把 相互 之 间 有 包容 关系 或 参照 
关系 的 审计 中 间 表 当 作 两 个 著录 单位 。 此 外 ,应 将 不 同 格式 的 审计 中 间 表 当 作 两 个 著录 
单位 , 即 同一 内 容 、 不 同 格式 的 审计 中 间 表 ,作为 不 同 对 象 著录 。 


7.2.2 审计 分 析 模 型 


1. 定义 及 特点 分 析 
审计 分 析 模 型 是 审计 人 员 用 于 数据 分 析 的 数学 公式 或 逻辑 表达 式 , 它 是 按照 审计 事 
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项 应 该 具有 的 性 质 或 数量 关系 ,由 审计 人 员 通 过 设 定 计算 、 判 断 或 限制 条 件 建立 起 来 的 ， 
用 于 验证 审计 事项 实际 的 性 质 或 数量 关系 ,从 而 对 被 审计 单位 经 济 活动 的 真实 ,合法 ` 效 
益 情 况 做 出 科学 的 判断 。 审 计 分 析 模 型 的 特点 表现 如 下 。 
。 在 表现 形式 上 ,审计 分 析 模 型 有 多 种 表现 形态 : 用 在 查询 分 析 中 ,表现 为 一 个 或 
一 组 查询 条 件 ; 用 在 多 维 分 析 中 ,表现 为 切片 . 切 块 . 旋 转 、 钻 取 、 创 建 计算 成 员 、 创 
建 计算 单元 等 :用 在 挖掘 分 析 中 ,表现 为 设 定 挖掘 条 件 。 
。 在 内 容 描 述 上 ,审计 分 析 模 型 通过 审计 分 析 模 型 算法 体现 ,内 容 包 括 构建 审计 分 
析 模 型 的 思路 .方法 和 步骤 ,从 分 析 实 质 上 ,审计 分 析 模 型 是 一 个 数学 公式 或 者 逻 
辑 表达 式 。 
。 在 文件 格式 上 ,多 维 数据 集 , 以 各 数据 库 特 有 的 数据 集 文件 格式 (如 CAB 或 ABF) 
存放 ;数据 透视 表 或 图 ,以 Excel 文件 格式 (如 XLS 或 XLSX) 存 放 ; 查 询 语句 ,以 
SQL 文件 格式 存放 。 
2. 著录 对 象 范围 的 界定 
按照 在 审计 中 的 不 同 功能 ,可 以 将 审计 分 析 模 型 具体 划分 为 系统 分 析 模 型 .类别 分 析 
模型 和 个 体 分 析 模 型 三 大 类 。 系 统 分 析 模型 主要 用 于 对 被 审计 单位 的 数据 进行 整体 层次 
上 的 全 面 、 系统 分 析 ,发 现 趋势 和 异常 ,帮助 审计 人 员 把 握 被 审计 单位 的 总 体 情 况 。 类 别 
分 析 模 型 主要 按 业 务 类 别 对 审计 数据 进行 分 析 , 指 引 审计 人 员 发 现 和 锁定 重点 审计 的 内 
容 、 范 围 。 个 体 分 析 模 型 主要 用 于 核查 问题 .筛选 线索 ,为 延伸 取证 提供 明确 具体 的 上 日 标 。 
审计 人 员 在 某 个 审计 项 目 中 实际 构建 ,经 检验 能 够 帮助 审计 人 员 验 证 审计 事项 实际 
性 质 或 数量 关系 ,并 对 被 审计 单位 经 济 活动 的 真实 、 合 法 及 效益 情况 作出 科学 判断 的 审计 
分 析 模 型 ,都 应 该 被 著录 到 这 个 审计 项 目的 审计 分 析 模 型 数据 库 中 。 
3. 著录 单位 的 界定 
审计 分 析 模 型 的 著录 单位 为 单个 审计 分 析 模 型 。 审 计 分 析 模 型 是 通过 审计 分 析 模 型 
算法 体现 的 ,每 个 审计 分 析 模 型 都 构建 在 一 个 具体 的 审计 项 目 里 。 因 为 被 审计 单位 审计 
数据 结构 和 数据 内 容 的 千差万别 和 不 断 变化 ,所 以 审计 分 析 模 型 必须 针对 具体 的 审计 中 
间 表 来 构建 。 在 著录 审计 分 析 模型 时 ,应 注意 在 审计 分 析 模 型 的 元 数据 中 描述 该 模型 所 
应 用 的 审计 中 间 表 的 名 称 。 


7.2.3 审计 专家 经 验 


1. 定义 及 特点 分 析 
审计 专家 经 验 是 指 审计 人 员 在 审计 分 析 实 践 中 形成 和 积累 ,并 已 被 证 明 有 效 的 审计 
知识 .技能 方法 等 。 审 计 专 家 经 验 表现 如 下 。 

。 在 表现 形式 上 ,审计 专家 经 验 规定 了 必 备 的 要 素 , 包 括 标题 ` 经 验 类 别 、 经 验 种 类 、 
经 验 描述 .审计 步骤 、 经 验 模 型 ,类 SQL 描述 、 适 用 法 规 、 典 型 案例 、 资 料 参数 \ 作 
者 .日 期 。 

。 在 内 容 描述 上 ,审计 专家 经 验 是 对 审计 人 员 在 审计 实践 中 形成 的 审计 知识 、 技 能 、 
方法 的 归纳 提炼 。 

。 在 文件 格式 上 ,采用 的 是 PDF 文件 格式 。 
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2. 著录 对 象 范围 的 界定 

审计 专家 经 验 的 著录 对 象 是 经 各 级 审计 组 织 征集 .评选 后 确定 的 优秀 审计 专家 经 验 。 
未 经 甄选 的 审计 专家 经 验 一 般 不 进行 著录 。 这 样 做 的 目的 主要 是 保证 审计 专家 经 验 的 
质量 。 

3. 著录 单位 的 界定 

审计 专家 经 验 的 著录 单位 为 单个 审计 专家 经 验 


7.2.4 审计 情景 案例 


1. 定义 及 特点 分 析 
审计 情景 案例 是 审计 分 析 过 程 的 情景 再 现 ,是 以 图 文 形式 描述 的 特定 审计 情景 ,一 般 
应 包括 一 个 或 多 个 疑难 问题 ,同时 也 包含 解决 这 些 问题 的 方法 。 人 情景 案例 的 特点 表现 
如 下 。 
。 在 表现 形式 上 ,审计 情景 案例 都 规定 了 必 备 的 要 素 , 包 括 标题 .案例 背景 案例 实 
体 、 案 例 分 析 。 
。 在 内 容 描述 上 ,审计 情景 案例 是 以 某 个 情景 为 背景 ,对 审计 人 员 在 审计 实践 中 形 
成 的 审计 知识 、 技 能、 方法 的 描述 。 
。 在 文件 格式 上 ,采用 的 是 PDF 文件 格式 ,也 可 以 有 图 片 .音像 制品 。 
2. 著录 对 象 范围 的 界定 
审计 情景 案例 的 著录 对 象 是 经 各 级 审计 组 织 征集 .评选 后 确定 的 优秀 审计 情景 案例 。 
未 经 甄选 的 审计 情景 案例 一 般 不 进行 著录 。 这 样 做 的 目的 主要 是 保证 审计 情景 案例 的 
质量 。 
3. 著录 单位 的 界定 
审计 情景 案例 的 著录 单位 为 单个 情景 案例 。 


7.2.5 被 审计 单位 资料 


1. 定义 及 特点 分 析 

被 审计 单位 资料 是 审计 分 析 中 收集 的 对 今后 审计 有 指导 借鉴 意义 的 被 审计 单位 的 相 
关 材 料 ,特点 表现 如 下 。 

。 在 表现 形式 上 ,被 审计 单位 资料 形式 多 样 , 既 可 以 是 报告 材料 ,也 可 以 是 账 表 
信息 。 
在 内 容 描述 上 ,被 审计 单位 资料 内 容 丰 富 ,包括 被 审计 单位 组 织 沿 革 、 会 计 资料 、 
审计 查 出 问题 描述 等 。 
在 文件 格式 上 ,采用 的 是 PDF 文件 格式 和 RAR 文件 压缩 格式 ,也 可 以 有 图 片 . 音 
像 制 品 。 

2. 著录 对 象 范围 的 界定 

被 审计 单位 资料 的 著录 对 象 是 经 审计 人 员 甄 别 的 有 审计 价值 的 资料 。 

3. 著录 单位 的 界定 

被 审计 单位 资料 的 著录 单位 为 单个 被 审计 单位 资料 或 被 审计 单位 资料 压缩 包 。 
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7.3 元 数据 结构 设计 


借鉴 《我 国 数字 图 书馆 标准 规范 建设 : 专门 数字 对 象 描述 元 数据 规范 设计 指南 》 对 元 
数据 结构 的 设计 指导 意见 ,根据 大 数据 审计 分 析 的 特点 和 属性 ,其 元 数据 基本 结构 由 核心 
元 素 、. 审 计数 字 信息 核心 元 素 和 个 别 元 素 三 部 分 组 成 。 

核心 元 素 为 各 类 审计 数字 信息 对 象 与 DC(Dublin Core, 都 柏林 核心 元 数据 集 ) 保 持 
一 致 .易于 交换 的 元 素 。 审 计数 字 信息 核心 元 素 是 除 核心 元 素 以 外 ,为 某 一 类 审计 数字 信 
息 的 资源 对 象 所 通用 的 元 素 , 如 通用 公文 核心 元 素 包 括 发 文字 号 ,行文 依据 .行文 对 象 . 紧 
急 程 度 、 附 件 、 过 程 文件 。 个 别 元 素 依据 特定 使 用 的 资源 属性 来 确定 ,如 审计 业务 文书 中 
的 外 资 运用 审计 报告 的 个 别 元 素 就 是 项 目 名 称 、 项 目 执行 单位 、 会 计 年 度 。 

审计 数字 信息 的 元 数据 著录 包括 下 述 各 类 审计 数字 信息 分 别 包括 的 元 素 及 其 相应 的 
修饰 词 。 除 了 必 备 和 有 则 必 备 的 数据 项 外 ,并 不 一 定 具 备 所 有 的 元 素 和 修饰 词 。 本 设计 
不 对 元 数据 记录 中 的 各 项 元 素 的 排列 顺序 作 强 制 性 规定 ,应 用 者 可 以 根据 用 户 使 用 的 习 
惯 及 其 他 需求 ,自行 决定 元 素 的 排列 顺序 。 


7.3.1 审计 中 间 表 的 元 数据 结构 


审计 中 间 表 著录 的 元 素 及 元 素 修 饰 词 包括 : 标题 ,标识 符 、 责 任 者 、 主 题 \ 描 述 、 审 计 
组 织 、 创 建 日 期 .资源 类 型 .文件 格式 .技术 环境 .语种 .控制 标识 密级、 保密 期 限 . 包 含 于 、 
时 间 范 围 . 审 计 项 目 . 表 类 别 .被 审计 单位 数据库。 表 7-1 列 出 了 审计 中 间 表 的 元 数据 ， 
表 7-2 列 出 了 审计 中 间 表 的 元 素 修饰 词 及 编码 体系 修饰 词 。 


表 7-1 审计 中 间 表 的 元 数据 


















































核心 元 素 (13 个 ) 审计 中 间 表 核心 | 审计 中 间 表 个 别 
元 素 名 称 ”| 与 DC 的 映射 (中 文 ) | 与 DC 的 映射 (英文 ) 元 素 (4 个 ) 元 素 
标题 题名 Title 审计 项 目 
标识 符 识别 符 Resource Identifier 表 类 别 
责任 者 创建 者 Creator 被 审计 单位 
主 是 主题 Subject and Keywords| 数据 库 
描述 描述 Description 
其 他 责任 者 其 他 贡献 者 Contributor 根据 特定 的 审计 
日 期 日 期 Date 中 间 表 属性 来 确定 
资源 类 型 类 型 Type 
格式 格式 Format 
语种 语言 Language 
权限 管理 权限 Rights 
相关 信息 关系 Relation 
盖 范 围 盖 范 围 Coverage 
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元 素 名 称 


表 7-2 审计 中 间 表 的 元 素 修饰 词 及 编码 体系 修饰 词 


元 素 修饰 词 名 称 


编码 体系 修饰 词 





标题 





标识 符 


URI 





责任 者 





主题 


公文 主题 词 表 





描述 





其 他 责任 者 


审计 组 织 





日 期 


创建 日 期 


Period .W3CDTF 





指定 值 “审计 中 间 表 ” 





格式 


文件 格式 .技术 环境 





语种 


ISO639-2、RFC1766 





权限 管理 


控制 标识 、 密 级 \ 保 密 期 限 





相关 信息 


包含 于 





[ 盖 范 围 


时 间 范 围 





审计 项 目 





表 类 别 





被 审计 单位 





7.3.2 审计 分 析 模 型 的 元 数据 结构 


审计 分 析 模 型 著录 的 元 素 及 元 素 修饰 词 包括 : 标题 ,标识 符 、 责 任 者 .主题 .描述 、 审 
计 机 关 、 创 建 日 期 .资源 类 型 .文件 格式 .技术 环境 、 语 种、 控制 标 识 ` 相 关 信 息 、 审 计 项 目 、 
模型 类 别 。 表 7-3 列 出 了 审计 分 析 模 型 的 元 数据 , 表 7-4 列 出 了 审计 分 析 模 型 的 元 素 修 
饰 词 及 编码 体系 修饰 词 。 





表 7-3 审计 分 析 模 型 的 元 数据 





























0 审计 分 析 模型 | 审计 分 析 模型 个 别 
元 素 名 称 “| 与 DC 的 映射 (中 文 ) | 与 DC 的 映射 (英文 ) | 核心 元 素 (2 个 ) 元 素 

标题 题名 Title 审计 项 目 
标识 符 识别 符 Resource Identifier 模型 类 别 
责任 者 创建 者 Creator 根据 特定 的 审计 
主题 主题 Subject and Keywords 人 
描述 描述 Description 
其 他 责任 者 其 他 贡献 者 Conitributor 
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核心 元 素 (12 个 ) 





续 表 


审计 分 析 模 型 | 审计 分 析 模 型 个 别 







































































元 素 名 称 “| 与 DC 的 映射 (中 文 ) | 与 DC 的 映射 (英文 ) | 核心 元 素 (2 个 ) 元 素 
日 期 日 期 Date 
资源 类 型 类 型 Type 
格式 格式 Format 
语种 语言 Language 
权限 管理 权限 Rights 
相关 信息 关系 Relation 
表 7-4 审计 分 析 模 型 的 元 素 修 饰 词 及 编码 体系 修饰 词 
元 素 名 称 元 素 修 饰 词 名 称 编码 体系 修饰 词 
标题 
标识 符 URI 
责任 者 
主题 公文 主题 词 表 
描述 
其 他 责任 者 审计 组 织 
日 期 创建 日 期 Period .W3CDTF 
资源 类 型 指定 值 “ 审 计 分 析 模 型 ” 
格式 文件 格式 .技术 环境 
语种 ISO639-2、RFC1766 
权限 管理 控制 标识 
相关 信息 
审计 项 目 
模型 类 别 





7.3.3 审计 专家 经 验 的 元 数据 结构 


审计 专家 经 验 著录 的 元 素 及 元 素 修饰 词 包括 : 标题 .标识 符 、 责 任 者 .主题 .描述 、 审 
计 组 织 、 创 建 日 期 .资源 类 型 、 页 数 . 语 种 、 控 制 标识 ` 相 关 信息 、 经 验 类 型 .典型 案例 。 

表 7-5 列 出 了 审计 专家 经 验 的 元 数据 , 表 7-6 列 出 了 审计 专家 经 验 的 元 素 修饰 词 及 
编码 体系 修饰 词 。 
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表 7-5 审计 专家 经 验 的 元 数据 


































































































核心 元 素 (12 个 ) 审计 专家 经 验 | 审计 专家 经 验 个 别 
元 素 名 称 “| 与 DC 的 映射 (中 文 ) | 与 DC 的 映射 (英文 ) | 核心 元 素 (2 个) 元 素 
标题 题名 Title 经 验 类 型 
标识 符 识别 符 Resource Identifier 典型 案例 
责任 者 创建 者 Creator 
主题 主题 Subject and Keywords 
描述 描述 Description 
其 他 责任 者 其 他 贡献 者 Contributor 根据 特定 的 审计 
站 ee es 
资源 类 型 类 型 Type 
格式 格式 Format 
语种 语言 Language 
权限 管理 权限 Rights 
相关 信息 关系 Relation 

表 7-6 审计 专家 经 验 的 元 素 修饰 词 及 编码 体系 修饰 词 
元 素 名 称 元 素 修饰 词 名 称 编码 体系 修饰 闻 
标题 
标识 勿 URI 
责任 者 
主题 公文 主题 词 表 
描述 
其 他 责任 者 审计 组 织 
日 期 创建 日 期 Period .W3CDTF 
资源 类 型 指定 值 “审计 专家 经 验 ” 
格式 页 数 
语种 ISO639-2 .RFC1766 
权限 管理 控制 标识 
相关 信息 
经 验 类 型 
典型 案例 
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7.3.4 审计 情景 案例 的 元 数据 结构 


审计 情景 案例 著录 的 元 素 及 元 素 修饰 词 包括 : 标题 、 标 识 符 责任 者 .主题 .描述 、 审 
计 组 织 、 创 建 日 期 .资源 类 型 、 页 数 . 语 种 、 控 制 标识 ` 相 关 信 息 、 案 例 类 型 .典型 案例 。 

表 7-7 列 出 了 审计 情景 案例 的 元 数据 , 表 7-8 列 出 了 审计 情景 案例 的 元 素 修饰 词 及 
编码 体系 修饰 词 。 


表 7-7 审计 情景 案例 的 元 数据 












































a 审计 情景 案例 | 审计 情景 案例 个 别 
元 素 名 称 “| 与 DC 的 映射 (中 文 ) | 与 DC 的 映射 (英文 ) | 核心 元 素 (2 个 ) 元 素 
标题 题名 Title 案例 类 型 
标识 符 识别 符 Resource Identifier 典型 案例 
责任 者 创建 者 Creator 
主题 主题 Subject and Keywords 
描述 描述 Description 
其 他 责任 者 其 他 贡献 者 Contributor 根据 特定 的 审计 
资源 类 型 类 型 Type 
格式 格式 Format 
语种 语言 Language 
权限 管理 权限 Rights 
相关 信息 关系 Relation 











表 7-8 审计 情景 案例 元 素 修 饰 词 及 编码 修饰 词 
































元 素 名 称 元 素 修饰 词 名称 编码 体系 修饰 词 
标题 

标识 符 URI 

责任 者 

主题 公文 主题 词 表 

描述 

其 他 责任 者 审计 组 织 

日 期 创建 日 期 Period .W3CDTF 
资源 类 型 指定 值 “审计 专家 经 验 ” 
格式 页 数 

语种 ISO639-2、RFC1766 
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续 表 
元 素 名 称 元 素 修饰 词 名 称 编码 体系 修饰 词 
权限 管理 控制 标识 
相关 信息 
案例 类 型 
典型 案例 





7.3.5 被 审计 单位 资料 的 元 数据 结构 


被 审计 单位 资料 著录 的 元 素 及 元 素 修饰 词 包括 : 标题 ,标识 符 、 责 任 者 .主题 .描述 、 
其 他 责任 者 \ 日 期 .资源 类 型 .资源 载体 、 文 件 格 式 、 语 种 、 控 制 标 识 、 密 级 \ 保 密 期 限 、 相 关 
信息 、 覆 盖 范 围 被 审计 单位 。 

表 7-9 列 出 了 被 审计 单位 资料 的 元 数据 , 表 7-10 列 出 了 被 审计 单位 资料 的 元 素 修饰 
词 及 编码 体系 修饰 词 。 
















































































表 7-9 被 审计 单位 资料 的 元 数据 
se 被 审计 单位 资料 | 被 审计 单位 资料 

元 素 名 称 “| 与 DC 的 映射 (中 文 ) | 与 DC 的 映射 (英文 ) | 核心 元 素 (1 个) 个 别 元 素 
标题 题名 Title 被 审计 单位 
标识 符 识别 符 Resource Identifier 
责任 者 创建 者 Creator 
主题 主题 Subject and Keywords 
描述 描述 Description 
其 他 责任 者 其 他 贡献 者 Contributor 根据 特定 的 被 审 

计 单 位 资料 属性 

日 期 日 期 Date 来 确定 
资源 类 型 类 型 Type 
格式 格式 Format 
语种 语言 Language 
权限 管理 权限 Rights 
相关 信息 关系 Relation 

盖 范 围 覆盖 范围 Coverage 

表 7-10 被 审计 单位 资料 的 元 素 修饰 词 及 编码 体系 修饰 词 
元 素 名 称 元 素 修饰 词 名 称 编码 体系 修饰 词 
标题 
标识 符 URI 
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续 表 

元 素 名 称 元 素 修 饰 词 名 称 编码 体系 修饰 词 
责任 者 
主题 公文 主题 词 表 
描述 
其 他 责任 者 
日 期 Period .W3CDTF 
资源 类 型 指定 值 * 被 审计 单位 资料 ” 
格式 资源 载体 文件 格式 
语种 ISO639-2 .RFC1766 
权限 管理 控制 标识 、 密 级 ,保密 期 限 
相关 信息 

盖 范 围 
被 审计 单位 








7.4 应 用 大 数据 审计 分 析 数 字 信息 元 数据 规范 的 扩展 规则 


分 析 人 员 在 应 用 审计 数字 信息 元 数据 规范 时 ,可 以 采取 增加 元 素 的 方式 对 大 数据 审 
计 分 析 元 数据 进行 扩展 。 这 种 扩展 方式 是 横向 扩展 ,应 遵守 以 下 规则 : 

。 按照 核心 元 素 .审计 数字 信息 核心 元 素 、 个 别 元 素 的 结构 组 成 。 

。 最 大 可 能 采用 本 元 数据 规范 推荐 的 元 数据 项 ,并 在 语义 上 严格 保持 一 致 。 

。 对 推荐 的 元 素 不 能 描述 的 特性 可 以 增加 元 素 ,但 新 增加 元 素 不 能 与 已 有 元 素 有 任 

何 语义 上 的 重复 。 

为 了 更 为 准确 地 描述 对 象 , 可 以 使 用 修饰 词 的 方式 向 下 扩展 一 层 , 这 是 对 大 数据 审计 
分 析 数 字 信 息 元 数据 进行 纵向 扩展 。 修 饰 词 分 为 元 素 修饰 词 和 编码 体系 修饰 词 两 种 ,其 
中 元 素 修饰 词 (element refinement) 是 对 元 素 的 语义 进行 修饰 ,提高 元 素 的 专 指 性 和 精确 
性 ;编码 体系 修饰 词 (encoding scheme) 则 包括 控制 词 表 和 正规 的 符号 或 者 解读 方式 。 审 
计数 字 信息 元 数据 的 纵向 扩展 应 遵守 以 下 规则 : 

。 如 果 元 素 已 复 用 DC, 则 修饰 词 尽 量 采 用 DC 的 修饰 词 。 
尽 可 能 遵守 向 上 兼容 (dump-down) 原 则 ,增加 的 修饰 词 的 语义 不 能 超过 被 修饰 词 
(元 素 ) 的 语义 ,修饰 词 只 是 对 未 修饰 词 的 含义 范围 做 了 进一步 的 限定 。 
修饰 词 的 设 定 可 以 复 用 来 自 其 他 元 数据 标准 的 修饰 词 ,但 要 求 必须 说 明 来 源 , 使 
用 时 严格 遵守 其 语义 
自行 制订 的 修饰 词 必须 遵循 向 上 兼容 原则 ， 即 修饰 词 的 语义 包含 于 相应 oa 
元 素 中 ,在 范围 上 对 未 限定 元 素 的 语义 进行 限定 ,在 深度 上 对 未 限定 元 素 的 语 
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进行 延伸 。 对 于 未 具备 修饰 词 知识 的 用 户 而 言 , 修 饰 词 可 以 像 未 限定 元 素 一 样 
使 用 。 
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8.1 大 数据 清洗 的 基本 概念 


随 着 信息 技术 的 快速 发 展 ,各 个 领域 都 以 惊人 的 速度 不 停 地 产生 各 式 各 样 的 规模 巨 
大 的 数据 信息 ,人 类 也 在 工作 生活 的 方方面面 接触 到 越 来 越 多 的 数据 信息 。 然 而 ,人 类 对 
数据 信息 理解 的 匮乏 与 数据 爆炸 的 趋势 显得 并 不 对 称 , 人 类 在 努力 将 数据 信息 转化 为 有 
利信 息 知识 的 同时 ,也 面临 大 数据 之 中 夹杂 的 “ 脏 数 据 ” 的 挑战 。 对 原始 数据 源 的 清洗 ,将 
其 转化 为 可 被 理解 利用 的 目标 数据 源 , 成 为 人 类 理解 数据 的 过 程 中 尤为 重要 的 一 步 。 


8.1.1 大 数据 清洗 的 基本 架构 


大 数据 时 代 , 随 着 “数据 驱动 运营 ”的 意识 在 各 行业 中 的 逐渐 普及 , “数据 驱动 下 的 精 
细 化 运营 ”也 成 了 生产 运营 过 程 中 的 必然 趋势 ,但 在 其 中 同样 面临 * 脏 数据 ”的 严峻 挑战 。 

在 席卷 全 球 的 信息 化 浪潮 中 ,互联 网 、 云 计算 、 物 联网 等 技术 迅猛 发 展 . 加 速 创 新 ,其 
中 积淀 的 数据 爆炸 式 增长 ,成 为 重要 的 生产 要 素 和 社会 财富 , 堪 称 信息 时 代 的 矿产 和 石 
油 。 针 对 这 种 史无前例 的 数据 洪流 ,如 何 挖掘 信息 时 代 的 “数字 石油 ,将 大 数据 转换 为 大 
智慧 ,大 市 场 和 大 生态 ,是 我 们 这 个 时 代 的 历史 机 遇 。 

大 数据 已 经 渗透 到 各 个 行业 和 业务 职能 领域 ,成 为 重要 的 生产 因素 。 数 据 的 来 源 主 
要 有 政府 数据 .行业 数据 、 企 业 数据 和 从 数据 交易 所 交换 的 数据 。 

海量 数据 的 不 断 剧 增 形成 大 数据 时 代 的 显著 特征 ,而 大 数据 的 生产 和 交易 的 重要 前 
提 之 一 是 数据 的 清洗 。 大 数据 必须 经 过 清洗 、 分 析 、 建 模 、 可 视 化 才能 体现 其 潜在 的 价值 。 
但 由 于 业务 应 用 的 多 样 化 和 社交 网 络 的 繁荣 ,单个 文件 (如 日 志文 件 . 音 视频 文件 等 ) 变 得 
越 来 越 大 ,硬盘 的 读 取 速 度 越 来 越 无 法 满足 人 们 的 需要 ,文件 的 存储 成 本 越 来 越 高 。 与 此 
同时 ,政府 .银行 和 保险 公司 等 内 部 存在 海量 的 非 结 构 化 .不 规则 的 数据 ,只 有 将 这 些 数据 
采集 并 清洗 为 结构 化 .规则 的 数据 ,才能 提高 部 门 的 决策 支撑 能 力 和 政府 决策 服务 水 平 ， 
使 之 发 挥 应 有 的 作用 。 

因此 ,目前 的 数据 清洗 主要 是 将 数据 划分 为 结构 化 数据 和 非 结构 化 数据 ,分 别 采 用 传 
统 的 数据 提取 、 转 换 、 加 载 (ETL) 工 具 和 分 布 式 并 行 处 理 来 实现 ,其 基本 架构 如 图 8-1 
所 示 。 

结构 化 数据 一 般 存 储 在 传统 的 关系 型 数据 库 中 。 关 系 型 数据 库 在 处 理事 务 、 及 时 响 
应 ,保证 数据 的 一 致 性 方面 有 天 然 的 优势 。 

非 结 构 化 数据 可 以 存储 在 新 型 的 分 布 式 存储 中 ,如 Hadoop 的 HDFS。 分 布 式 存储 
在 系统 的 横向 扩展 性 、 降 低 存储 成 本 、 提 高 文件 读 取 速 度 方面 有 着 独特 的 优势 。 
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数据 资产 统一 的 数据 视图 
| 


数据 清洗 传统 清洗 工具 分 布 式 并 行 处 理 模式 


非 结构 化 数据 


























数据 存储 结构 化 数据 
数据 迁移 


在 线 离线 | 




















数据 来 源 数据 采集 数据 交换 





图 8-1 大 数据 清洗 的 基本 架构 


数据 清洗 在 汇聚 多 个 维度 、 多 个 来 源 、 多 种 结构 的 数据 之 后 ,就 可 以 对 数据 进行 抽取 、 
转换 和 集成 加 载 。 在 这 个 过 程 中 ,除了 更 正 、 修 复 系统 中 的 一 些 错误 数据 之 外 ,更 多 的 是 
对 数据 进行 归并 整理 ,并 储存 到 新 的 存储 介质 中 。 其 中 ,分 清和 掌握 数据 的 质量 至 关 
重要 。 

常见 的 数据 质量 问题 可 以 根据 数据 源 的 多 少 和 所 属 层次 (定义 Scheme 层 和 实例 
sample 层 ) 分 为 以 下 四 类 。 

第 一 类 ,单数 据 源 定义 层 : 违背 字段 约束 条 件 ( 如 日 期 出 现 1 月 0 日 ) .字段 属性 依赖 
冲突 (如 两 条 记录 描述 同一 个 人 的 某 一 个 属性 ,但 数值 不 一 致 )、 违 反 唯一 性 (同一 个 主键 
ID 出 现 了 多 次 )。 

第 二 类 ,单数 据 源 实例 层 : 单个 属性 值 含 有 过 多 信息 、 拼 写 错误 、 空 白 值 ,噪声 数据 、 
数据 重复 、 过 时 数据 等 。 

第 三 类 ,多 数据 源 的 定义 层 : 同一 个 实体 的 不 同 称呼 (如 冰心 和 谢 婉 莹 ,用 笔名 还 是 
用 真名 ) .同一 种 属性 的 不 同 定义 (如 字段 长 度 定义 不 一 臻 .字段 类 型 不 一 致 等 ) 。 

第 四 类 ,多 数据 源 的 实例 层 : 数据 的 维度 .粒度 不 一 致 (如 有 的 按 GB 记录 存储 量 , 有 
的 按 TB 记录 存储 量 ; 有 的 按 年 度 统计 数据 ,有 的 按 月 份 统 计数 据 )、 数 据 重 复 、 拼 写 错 
误 等 。 

除 此 之 外 ,还 有 在 数据 处 理 过 程 中 产生 的 “二 次 数据 ”, 其 中 也 会 有 了 噪声、 重复 或 错误 
的 情况 。 数 据 的 调整 和 清洗 也 会 涉及 格式 ,测量 单位 和 数据 标准 化 与 归 一 化 的 相关 事情 。 
通常 这 类 问题 可 以 归结 为 不 确定 性 。 不 确定 性 有 两 方面 内 涵 , 包 括 各 数据 点 自身 存在 的 
不 确定 性 ,以 及 数据 点 属性 值 的 不 确定 性 。 前 者 可 以 用 概率 描述 ,后 者 有 多 重 描述 方式 ， 
如 描述 属性 值 的 概率 密度 函数 ,以 方差 为 代表 的 统计 值 等 。 


8.1.2 数据 清洗 的 基本 步骤 


数据 清洗 指 的 是 把 * 脏 ?数据 * 洗 掉 ”, 即 发 现 并 纠正 数据 中 可 识别 的 错误 ,包括 检查 数 
据 一 致 性 .处 理 无 效 值 和 缺失 值 等 。 在 大 数据 时 代 ,数据 的 种 类 和 来 源 众 多 ,这 就 避免 不 
。154 。 
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了 有 错误 的 数据 或 异常 的 数据 ,这 些 错 误 的 数据 称 为 “ 脏 数据 ?。 我 们 要 按照 一 定 的 规则 
把 “ 脏 数据 ” 洗 掉 ,这 就 是 数据 清洗 。 而 数据 清洗 的 任务 是 过 滤 那 些 不 符合 要 求 的 数据 ,将 
过 滤 的 结果 报 给 相关 部 门 ,确认 是 否 过 滤 掉 还 是 由 业务 单位 修正 之 后 再 进行 抽取 。 

数据 清洗 是 整个 数据 分 析 过 程 中 不 可 或 缺 的 一 个 环节 ,数据 清洗 的 质量 直接 关系 到 模 
型 效果 和 最 终结 论 。 在 实际 操作 中 ,数据 清洗 通常 会 占用 分 析 过 程 的 50%~80% 的 时 间 。 

无 论 用 海量 数据 还 是 大 数据 来 表征 这 个 时 代 ,数据 规模 庞大 、 增 长 迅速 .类 型 繁多 、 结 
构 各 蜡 已 成 为 无 法 回避 的 现实 问题 。 如 何 把 繁杂 的 大 数据 变 成 我 们 能 应 付 的 .有 效 的 
“小 ”数据 , 即 针 对 特定 问题 构建 一 个 干净 、 完 备 的 数据 集 ,这 一 过 程 变 得 尤为 重要 。 在 大 
数据 时 代 , 若 不 加 强 数据 清洗 , 则 GIGO( 垃 圾 进 ,垃圾 出 ) 现 象 会 更 加 严重 。 

对 数据 清洗 之 后 进行 分 析 挖 掘 的 过 程 就 是 “去 粗 取 精 、 去 伪 存 真 、 化 零 为 整 、 见 微 知 
著 ” 的 过 程 。 只 有 通过 清洗 与 过 滤 得 到 干净 完备 的 数据 ,才能 通过 分 析 与 挖掘 得 到 可 以 让 
人 放心 的 .可 用 于 支撑 决策 的 信息 。 

在 进行 数据 分 析 之 前 ,首先 应 该 进行 数据 清洗 ,在 开始 数据 清洗 之 前 ,应 先 对 数据 进 
行 必要 的 预 处 理 。 

数据 预 处 理 阶 段 主 要 做 两 件 事情 : 一 是 将 数据 导入 处 理工 具 ; 二 是 查看 数据 ,包括 查 
看 元 数据 ,查看 字段 解释 、 数 据 来 源 、 代 码 表 等 一 切 描述 数据 的 信息 ,另外 还 需 抽取 一 部 分 
数据 ,使 用 人 工 查 看 方式 ,对 数据 本 身 有 一 个 直观 的 了 解 , 并 且 初 步 发 现 一 些 问题 ,为 之 后 
的 处 理 做 准备 。 

数据 预 处 理 之 后 ,就 可 以 进行 数据 清洗 了 。 数 据 清 洗 通 常 包含 如 下 几 个 步骤 。 

1. 缺失 值 清洗 

缺失 值 是 最 常见 的 数据 问题 ,处 理 缺 失 值 也 有 很 多 方法 ,一般 建议 按照 以 下 四 个 步 又 
进行 。 

(1) 缺失 值 

对 每 个 字段 都 计算 其 缺失 值 比例 ,然后 按照 缺失 比例 和 字段 重要 性 ,分 别 制定 不 同 的 
策略 。 

。 对 于 重要 性 高 .缺失 率 低 的 情况 ,可 以 通过 估 值 计算 的 方法 进行 填充 ,或 者 通过 经 
验 或 业务 知识 进行 估计 。 
对 于 重要 性 高 .缺失 率 也 高 的 情况 ,可 尝试 从 其 他 渠道 补 全 数据 ,或 者 使 用 其 他 字 
段 通过 计算 获取 缺失 值 ,如 果 该 字段 对 分 析 影 响 很 小 也 可 以 直接 去 除 该 字段 ; 

。 对 于 重要 性 低 、 缺 失 率 低 的 情况 ,可 以 不 进行 处 理 或 只 进行 简单 填充 ; 

。 对 于 重要 性 低 、 缺 失 率 高 的 情况 ,可 以 去 除 该 字段 。 

(2) 去 除 不 需要 的 字段 

去 除 不 需要 的 字段 很 简单 ,只 要 直接 删除 即 可 ,但 在 删除 之 前 应 该 对 所 做 的 每 一 步 清 
洗 操作 都 进行 记录 ,并 对 数据 进行 备份 。 

(3) 填充 缺失 内 容 

对 可 以 进行 填充 的 缺失 值 ,可 采用 如 下 方法 进行 填充 : 

。 以 业务 知识 或 经 验 推测 填充 缺失 值 ; 

。 以 同一 指标 的 计算 结果 (如 均值 .中 位 数 、 众 数 等 ) 填 充 缺失 值 ; 
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。 以 不 同 指标 的 计算 结果 填充 缺失 值 , 例 如 ,假设 年 龄 段 有 缺失 值 , 但 有 身份 证 号 信 
息 , 则 可 利用 身份 证 号 来 填充 年 龄 的 缺失 值 。 

(4) 重新 取 数 

如 果 某 些 指 标 非 常 重要 上 且 缺 失 率 高 , 则 需要 向 有 关 业 务 人 员 进 行 了 解 ,是 否 有 其 他 渠 
道 可 以 取得 相关 数据 。 

2. 格式 内 容 清 洗 

如 果 数 据 是 由 系统 日 志 而 来 ,那么 通常 在 格式 和 内 容 方面 会 与 元 数据 的 描述 一 致 。 
但 如 果 数 据 是 由 人 工 收集 或 用 户 填 写 而 来 , 则 有 很 大 可 能 性 在 格式 和 内 容 上 存在 一 些 问 
题 。 简 单 来 说 ,格式 内 容 问题 有 以 下 几 类 。 

(1) 时 间 .日 期 ,数值 .全 半角 等 显示 格式 不 一 臻 

这 种 问题 通常 与 输入 端 有 关 ,在 整合 多 来 源 数据 时 也 有 可 能 遇 到 ,将 其 处 理 成 一 致 的 
某 种 格式 即 可 。 

(2) 内 容 中 有 不 该 存在 的 字符 

某 些 内 容 可 能 只 包括 一 部 分 字符 ,如 身份 证 号 是 数字 十 字母 ,中 国人 姓名 是 汉字 。 最 
典型 的 就 是 头 `. 尾 .中 间 的 空格 ,也 可 能 出 现 姓 名 中 存在 数字 符号 .身份 证 号 中 出 现 汉 字 等 
问题 。 这 种 情况 下 ,需要 以 半自动 校 验 半 人 工 方式 来 找 出 可 能 存在 的 问题 ,并 去 除 不 需要 
的 字符 。 

(3) 内 容 与 该 字段 应 有 内 容 不 符 

姓名 写 了 性 别 .身份 证 号 写 了 手机 号 等 , 均 属 这 种 问题 。 但 该 问题 的 特殊 性 在 于 : 并 
不 能 简单 地 通过 删除 来 处 理 , 因 为 有 可 能 是 人 工 填 写 错误 ,也 有 可 能 是 前 端 没 有 校 验 ,还 
有 可 能 是 导入 数据 时 部 分 或 全 部 存在 列 没有 对 齐 的 问题 ,因此 要 详细 识别 问题 类 型 。 

格式 内 容 问题 是 比较 细节 的 问题 ,但 很 多 分 析 失 误 都 是 因为 这 个 问题 ,如 跨 表 关联 失 
败 ( 多 个 空格 导致 工具 认为 “ 张 长江 ” 和 “ 张 长 江 ” 不 是 一 个 人 ) 统计 值 不 全 (数字 里 掺 了 
字母 ,在 进行 求 和 时 肯定 出 问题 ) 、 模 型 输出 失败 或 结果 不 对 (如 数据 对 错 列 了 ,把 日 期 和 
年 龄 搞 混 了 )。 因 此 , 当 处 理 的 数据 是 人 工 收集 而 来 时 ,或 者 当 产 品 前 端 校 验 设 计 的 不 太 
好 时 ,必须 注意 这 些 数 据 的 清洗 问题 。 

3. 有 逻辑 错误 的 数据 的 清 ; 

这 部 分 的 工作 是 去 掉 一 些 使 用 简单 逻辑 推理 就 可 以 直接 发 现 问题 的 数据 ,防止 分 析 
结果 走 偏 。 主 要 包含 以 下 几 个 步骤 。 

(1) 去 重 

例如 ,由 于 人 工 录 入 等 问题 ,有 可 能 将 “ABC 管家 公司 ” 误 录 人 为 “ABC 官 家 公司 ”， 
如 果 不 仔 细 看 ,是 看 不 出 两 者 的 区 别 的 ,而 且 就 算 看 出 来 了 ,也 不 能 保证 没有 “ABC 官 家 
公司 ”的 存在 。 这 种 情况 ,只 能 或 者 是 写 模糊 匹配 算法 ,或 者 直接 肉眼 观察 。 

(2) 去 除 不 合理 值 

例如 ,人 的 年 龄 填写 为 200 岁 , 人 的 性 别 填写 为 * 男 ”“ 女 ”之 外 的 其 他 值 。 这 种 数据 要 
么 删 掉 , 要 么 按 缺 失 值 处 理 。 

(3) 修正 矛盾 内 容 

有 些 字段 是 可 以 相互 验证 的 ,例如 ,身份 证 号 是 1101031980XXXxxXxxxXx, 而 年 
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龄 坛 18 岁 。 这 种 情况 ,需要 根据 字段 的 数据 来 源 判定 哪个 字段 提供 的 信息 更 为 可 靠 , 去 
除 或 重 构 不 可 靠 的 字段 。 

逻辑 错误 除了 以 上 列 出 的 情况 外 ,还 有 其 他 很 多 情况 ,在 实际 操作 中 要 酌情 处 理 。 另 
外 ,这 一 步骤 在 之 后 的 数据 分 析 建 模 过 程 中 有 可 能 重复 ,因为 即使 问题 很 简单 ,也 并 非 所 
有 问题 都 能 够 一 次 找 出 ,我 们 能 做 的 是 使 用 工具 和 方法 ,尽量 减少 问题 出 现 的 可 能 性 ,使 
分 析 过 程 更 为 高 效 。 

4. 非 需求 数据 的 清洗 

这 一 步 说 起 来 非常 简单 : 把 不 要 的 字段 删 了 。 但 实际 操作 起 来 ,还 是 会 有 很 多 问题 ， 
例如 : 

。 把 看 上 去 不 需要 但 实际 上 对 业务 很 重要 的 字段 删 了 ; 

。 某 个 字段 觉得 有 用 ,但 又 没 想 好 怎么 用 ,不 知道 是 否 该 删 ; 

。 一 时 玻 忽 , 删 错字 段 了 。 

前 两 种 情况 的 建议 是 : 如 果 数 据 量 没 有 大 到 不 删 字段 就 没 办 法 处 理 的 程度 ,那么 能 
不 删 的 字段 尽量 不 删 。 对 于 第 三 种 情况 ,应 该 在 每 次 删除 字段 前 备份 数据 ,从 而 避免 因 误 
删 字段 而 丢失 数据 的 情况 。 

5. 关联 性 验证 

如 果 数 据 有 多 个 来 源 ,那么 有 必要 进行 关联 性 验证 。 例 如 ,假设 商品 的 销售 有 实体 店 
销售 、 网 上 销售 等 多 种 渠道 。 要 了 解 某 商品 的 销售 情况 ,就 需要 将 多 种 销售 渠道 销售 的 商 
品 通 过 商品 号 和 商品 名 进行 关联 ,查看 不 同 渠道 销售 的 相同 商品 是 否 商品 号 一 致 ,如 果 不 
一 致 会 直接 影响 数据 分 析 结 果 。 


8.2 数据 清洗 
本 节 以 清理 结构 化 数据 为 例 ,介绍 一 些 常用 的 数据 清洗 方法 。 


8.2.1 数据 清洗 的 一 些 注意 事项 


1. 数据 备份 

由 于 在 清洗 过 程 中 ,会 对 数据 进行 大 量 修改 ,为 了 保证 在 需要 时 随时 能 够 得 到 、 对 照 
或 恢复 清洗 前 的 数据 ,在 清洗 前 ,应 对 数据 进行 备份 。 

2. 谨慎 进行 清洗 

数据 清洗 应 谨慎 进行 ,以 免 丢 失 分 析 线 索 。 应 该 在 清洗 前 对 空 值 .不合 常 理 的 数值 等 
情况 进行 具体 分 析 , 未 准确 把 握 其 经 济 含义 前 不 能 一 概 蔡 换 为 0 或 进行 其 他 更 正 ; 对 元 余 
数据 的 处 理 也 应 小 心 对 待 ,因为 如 果 被 分 析 单 位 的 数据 库 较 规范 ,一 般 就 不 会 出 现 匈 余数 
据 ,数据 库 中 的 数据 一 般 都 是 有 意义 的 。 在 清理 的 过 程 中 ,对 能 准确 判断 为 无 经 济 含义 、 
与 数据 分 析 无 关 的 数据 , 才 可 以 进行 删除 。 对 于 重复 记录 ,如果 存 在 少量 的 完全 重复 的 记 
录 ,应 检查 是 否 存 在 人 为 虚 增 业务 量 等 情况 ;如 果 存 在 大 量 重 复 记 录 , 则 应 考虑 是 否 存在 
病毒 ,文件 传输 或 复制 中 的 问题 。 

示例 : 可 整 列 删除 的 情况 。 

oy 


大 数据 应 用 分 析 技 术 与 方法 





某 表 的 结构 在 数据 字典 中 的 描述 如 表 8-1 所 示 。 
表 8-1 数据 表 结 构 示 例 
































字段 名 中 文 名 类 型 说 明 
zkzh 主 卡 账号 char(16) not null 
khrq 开户 日 期 date not null 
yslxye 应 收 利 息 余额 dec (16,2) 当前 透支 周期 内 首次 发 生 应 收 利息 的 日 期 
zdtzlx 最 大 透支 利息 dec(16 ,2) 历史 最 大 值 
litzlx 累计 透支 利息 dec(16,2) 历史 累计 值 
scfsr 上 次 发 生日 date 该 账户 最 后 一 次 发 生 应 收 利息 的 日 期 
jel 金额 1 dec(16,2) 保留 
je2 金额 2 dec(16 .2) 保留 
dac 数据 校 验 码 char(16) 存放 DAC 值 


通过 阅读 表 8-1 ,我 们 很 容易 判断 出 该 表 的 最 后 一 列 是 没有 经 











未 济 含义 的 ,对 于 数据 分 


析 而 言 是 没有 实际 意义 的 ,对 于 此 种 情况 的 列 , 可 以 完全 视 为 元 余 列 ,在 清洗 时 将 该 列 全 


部 删除 。 


8.2.2 常见 的 数据 清洗 


1. 处 理 元 余数 据 
(1) 处 理 重复 行 数据 


如 图 8-2 所 示 为 有 重复 行 数据 的 一 个 贷 事 


钦 利率 表 数 据 示例 。 


如 果 要 保留 原始 表 中 的 


数据 ,并 将 删除 了 重复 行 的 数据 保存 到 另 一 个 新 表 中 (如 新 贷款 利率 表 ), 则 可 使 用 如 下 


SQL 语句 : 


SELECT DISTINCT * INTO 新 贷款 


钦 利率 表 ERCM 贷 者 


钦 利率 表 


消除 了 重复 行 数据 后 的 “新 贷款 利率 表 ” 数 据 示 例如 图 8-3 所 示 。 


(2) 处 理 列 中 元 余 数据 


那些 对 分 析 来 说 是 多 余 的 数据 ,可 以 使 用 如 下 语句 处 理 。 


示例 : 


Delete from X where COL1 like 's2?2%" 


(3) 处 理 宛 余 字 段 
宛 余 字 段 是 数据 分 析 人 员 在 分 析 数 据 中 不 需要 的 字段 ,如 图 8-4 所 示 。 
存在 可 能 会 对 审计 分 析 人 员 分 析 数 据 造成 不 必要 的 麻烦 ,因此 ,在 对 数据 进行 


以 先 将 这 些 元 余 字 段 清除 。 


escape "37 


消除 X 表 中 的 列 COL1 中 所 有 以 “?” 开 始 的 数据 。 


这 种 情况 可 以 使 用 ALTER TABLE 语句 将 宛 余 字 有 段 删除 。 
示例 : 删除 “分 录 明 细 表 ”中 的 “职员 ”“ 自 定义 项 目 ”" 和 “汇率 ”三 个 列 。 


“58 ” 


段 的 
御前 ,可 
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1100 
1100 


单位 活期 款 ， 
单位 活期 存款 
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.3000002 
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开发 银行 了 债券 利率 (12. 5%) 
开发 银行 债券 利率 (12. 5%) 
9. 5690997 19 
9.375 


总 行 金融 全 券 利率 (11. 5%) 
总 行 金融 债券 利率 (11. 25%) 
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1998-| 0 01 
1998-07-01 
1998-07-01 









1997-01-10 
1997-01-10 






1997-01-10 
1997-01-10 








图 8-2 包含 重复 行 数据 的 情 


90 年 五 年 期 财政 债券 利率 
单位 活期 存款 
单位 活期 存款 
单位 活期 存款 
同业 存款 

开发 银行 债券 利率 (12. 5%) 
开发 银行 债券 利率 (14%) 

总 行 金融 债券 利率 (11. 5%) 
总 行 金融 债券 利率 (11. 25%) 


消除 掉 重 复 行 数据 后 的 


(协定 ) 





图 8-3 





况 


1997-01-10 0 
1998-07-01 
1998-12-07 
1997-10-23 
1997-10-23 
1997-01-10 
1997-01-10 
1997-01-10 
1997-01-10 


情形 


[EXE REG 颜 | 作 2 频 | 


300000. 0 
14000.0 


.9000000000005 1. 


. 7799999999997 


图 8-4 有 元 余 字 有 段 的 情形 


az 


alter table 分 录 明 细 表 drop column 职员 , 自 定 


2. 处 理 空 值 


义 项 目 ,汇率 





3962.5 
300000.0 
14000.0 
1.0 
20000.0 
1.0 


4 
1 
1 
1 
4 
1, 
75. 
5 
1 


在 对 含有 空 值 的 列 进 行 分 析 统计 时 ,可 能 会 对 某 些 结果 产生 影响 ,因此 ,在 分 析 处 理 


数据 之 前 ,可 以 先 对 这 些 空 值 进行 处 理 。 例 如 ,对 如 图 8- 


5 所 示 的 数据 ,希望 对 借方 金额 、 


贷方 金额 列 中 的 空 值 进行 处 理 ,如 将 这 些 空 值 全 部 替换 为 0, 可 以 通过 如 下 SQL 语句 将 


“借方 金额 * 列 和 “贷方 金额 * 列 的 空 值 全 部 替换 为 0。 


update 分 录 明 细 表 set 借方 金额 =0 where 借方 金额 is nu 
update 分 录 明 细 表 set 贷方 金额 =0 where 贷方 金额 is nu 


人 处理 后 的 结果 如 图 8-6 所 示 。 
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3962.5 3962. 5 
RB au 760.0 E00 
RB NILL 3962.5 3962.5 
RIB NILL 760.0 760.0 
RB NILL 300000.0 300000.0 NULL 
RB NILL 300000.0 ULL 300000.0 
RB NILL 14000.0 400.0 NULL 
RB NILL 2000.0 2000.0 
RE NILL 1200.0 1200.0 
RB NILL 400.0 400.0 
RB NILL 1000.0 1000.0 
RE NILL 400.0 400.0 
RB NILL 400.0 400.0 
RIB NILL 400.0 400.0 
RIB NILL 600.0 600.0 
RE NULL 3000.0 ll 3000.0 





图 8-5 含有 空 值 的 列 





on. 3962.5 Em 5 

i NIL 760.0 760.0 0 
RB NIL 3962.5 0.0 3962.5 
RB NULL 760.0 0.0 760.0 
RB NULL 300000.0 300000.0 0.0 
RB NULL 300000.0 0.0 300000.0 
RB NIL 14000.0 14000.0 0.0 
RB NULL 2000.0 0.0 2000.0 
RB NULL 1200.0 0. 1200.0 
RB NULL 400.0 0.0 400.0 
RB NIL 1000.0 0.0 1000.0 
RB NULL 400.0 0.0 400.0 
RB NULL 400.0 0.0 400.0 
RB NULL 400.0 0.0 400.0 
RB NIL 600.0 0.0 600.0 
FID NULL 3000.0 0.0 3000.0 





图 8-6 处理 完 空 值 后 的 情形 


3. 处 理 不 规范 数据 

(1) 字段 缺失 

在 录入 数据 时 ,操作 人 员 在 对 多 条 连续 记录 中 存在 的 相同 数据 值 进行 录入 时 ,可 能 只 
录入 了 第 一 条 记录 的 数据 值 ,而 省 略 了 后 续 记录 的 相同 数据 值 的 录入 ,因而 导致 数据 不 完 
整 . 某 些 记录 有 缺失 值 存在 ,如 图 8-7 所 示 。 在 图 8-7 中 ,“ 日 期 * 列 和 “凭证 字号 ” 均 有 缺 





一 102 

102 
el 1190311 
大 1190311 





= 1190201 

1190201 

1190201 

ML 1190201 
1190201 
1190201 
1190201 
1190201 


1190201 
1190201 
2003-02-17 -4 102 


图 8-7 有 缺失 值 的 数据 








“00% 


第 8 章 大 数据 分 析 的 数据 清 ; 





失 值 。 这 些 不 完整 的 缺失 值 数 据 有 可 能 影响 数据 分 析 人 员 对 这 些 数据 的 分 析 结果 。 因 此 
在 对 数据 进行 分 析 之 前 ,需要 先 对 这 些 缺 失 值 进行 处 理 。 

处 理 缺 失 值 可 以 使 用 SQL Server 的 游标 机 制 实现 。 

示例 : 处 理 “ 车 购 费 数据 库 ” 中 “分 录 明 细 表 ”中 “凭证 字号 ”字段 的 缺失 值 。 

-=- 处 理 分 录 明 细 表 的 “凭证 字号 ? 列 的 缺失 值 的 代码 

- -为 表 增 加 一 个 标识 列 


ALTER TABIE 分 录 明 细 表 add tiq bigint identity(1,1) not null 
Go 


Geclare @ idl bigint,@ id2 bigint 


declare @ valuel nvarchar(25),@ value2 nvarchar(25) -缺失 值 列 的 数据 类 型 
DECLARE tab_cur cursor for select tid, 凭证 字号 from 分 录 明 细 表 
OPEN tab cur 


FETCH NEXT FROM tab cur into @ idl,@ valuel 
FETCH NEXT FROM tab cur into @ id2,@ value2 
-- 处 理 最 开始 的 缺失 值 
if @ valuel is null or@ valuel= 
begin 
-- 首 先 找到 第 一 个 不 为 空 的 值 
while @ @ FETCH STATUS =0 and (@ value2 is null or@ value2=- '") 
begin 
set @ valuel =@ value2 
set @ idl=@ id2 
FETCH NEXT FROM tab cur into @ id2,@ value2 
end 
-- 然 后 对 开始 的 这 些 缺 失 值 进行 处 理 
while (@ jiql >0) and (@ @ FETCH STATUS =0) 
begin 
update 分 录 明 细 表 set 凭证 字号 =@ value2 where tid=@ idl 
set @ idl=@ jiql -1 
end 
set @ valuel =@ value2 
set @ jiql =Q jiq2 
FETCH NEXT FROM tab cur into @ id2,@ value2 
end 
-- 处 理 后 边 的 缺失 值 
THIIE @ @ FETCH STATUS =0 
BEGIN 
-- 处 理 连续 缺失 值 情况 
while (@ @ FETCH STATUS =0) and (@ value2 is null or@ value2-'' ) 
begin 
print @ value2 
update 分 录 明 细 表 set 凭证 字号 =@ valuel where tid =@ id2 
FETCH NEXT FROM tab cur into @ id?2,@ value2 
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end 
set @ valuel =@ value2 
set @ idl =@ idq2 
FETCH NEXT FROM tab cur into @ id2,@ value2 
END 
CLOSE tab cur 
DEALIOCATE tab cur 
ALTER TABIE 分 录 明 细 表 drop colum tid 











GO 

对 “分 录 明 细 表 ”处 理 缺 失 值 后 的 情况 如 图 8-8 所 示 。 
作 朗 日 期 凭证 宇 号 科目 代码 
QULL> 2003-02-13 收 -1 102 
MLL> 2003-02-13 收 -1 102 
MLL> 2003-02-13 收 -1 1190311 
QULL> 2003-02-13 收 -1 1190311 
QULL> 2003-02-13 收 -2 102 
anULL> 2003-02-13 收 -2 2090410 
QULL> 2003-02-17 收 -3 102 
QULL> 2003-02-17 收 -3 1190201 
QULL> 2003-02-17 收 -3 1190201 
MLL> 2003-02-17 收 -3 1190201 
QULL> 2003-02-17 收 -3 1190201 
MLL> 2003-02-17 收 -3 1190201 
QULL> 2003-02-17 收 -3 1190201 
QULL> 2003-02-17 收 -3 1190201 
MLL> 2003-02-17 收 -3 1190201 
MLL> 2003-02-17 收 -3 1190201 
QULL> 2003-02-17 收 -3 1190201 
MLL> 2003-02-17 收 -3 1190201 
ML> 2003-02-17 收 -3 1190201 
QULL> 2003-02-17 收 -3 1190201 
MLL> 2003-02-17 收 -4 102 

图 8-8 处 理 完 缺 失 值 后 的 情形 
(2) 无 用 空格 


数据 前 的 无 用 空格 会 影响 分 析 人 员 在 按 条 件 进行 查询 时 的 查询 结果 。 例 如 ,图 8-9 
所 示 的 数据 ,如 果 审 计 分 析 人 员 要 查看 某 局 报销 的 卫生 费 情况 ,如 果 在 条 件 语句 中 写成 : 
WHERE 2Y= 荣 局 卫生 费 , 则 图 8-9 中 的 一 些 数据 将 不 在 查询 结果 中 (因为 前 边 有 空 
格 ), 因 而 影响 了 审计 数据 分 析 的 准确 性 。 为 了 避免 这 种 情况 ,在 对 数据 进行 审计 分 析 之 
前 应 先 将 数据 前 的 这 些 无 用 空格 去 掉 。 








| 
ol S21017 李 某 医药 费 QULL> 
01 102003 李 某 医药 费 5308 
01 405004006 某 公 司 的 修理 费 QULL> 
ol S21008020 某 公司 的 修理 费 qULL> 
ol 102003 某 公 司 的 修理 费 1365 
01 521005003 张 某 差旅费 ML 
01 102003 k 某 差 旅客 5301 
01 S21008 QULL> 
ol 102003 1366 
ol S21008 QILL> 
ol 102003 3 3 1367 
01 214001 王 某 医药 寓 ULL> 
ol 102003 王 某 医药 寓 5312 





图 8-9 数据 前 有 多 余 空 格 的 情况 


示例 : 消除 “车 购 费 数据 库 ” 中 “费用 记录 表 ” 中 “ZY” 列 前 的 无 用 空格 ,可 使 用 如 下 页 
所 示 的 SQL 语句 实现 : 
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Update 费用 记录 表 set ZY =IIRIM(Z7) 


(3) 异常 取 值 数据 
异常 取 值 数据 是 指数 据 的 值 存在 超出 数据 字典 规定 的 值 域 ,或 与 经 济 含义 不 相符 合 等 
情况 的 数据 。 异 常 取 值 数据 的 出 现 有 可 能 是 数据 库 在 取 值 约束 设计 上 存在 问题 或 缺陷 , 约 
束 无 效 \ 作 用 弱 , 导 致 数据 取 值 有 不 合 常理 的 情况 ;另外 ,异常 取 值 数据 的 存在 也 可 能 表明 组 
织 在 基础 数据 的 输入 中 存在 失误 或 舞 浆 ,导致 出 现 与 经 济 活动 事实 不 相符 合 的 数据 。 
对 于 异常 取 值 的 数据 ,在 清理 的 过 程 中 一 般 不 应 当 直 接 改正 或 删除 ,应 采取 记录 或 单 
独 保存 等 谨慎 的 处 理 方法 ,并 将 数据 反映 的 问题 作为 待 核查 的 问题 。 
示例 : 在 对 某 市 公路 建设 资金 的 审计 过 程 中 ,审计 人 员 取 得 了 对 某 市 3 万 多 辆 国产 
车 的 车 辆 购置 附加 费 的 征收 情况 的 数据 ,在 对 数据 的 清理 过 程 中 ,审计 人 员 发 现 部 分 国产 
车 的 发 票 价 超过 100 万 元 ,最 高 的 竞 高 达 740 余万元 ,如 此 高 的 价格 明显 与 现实 不 符 。 为 
了 核实 是 数据 录入 错误 还 是 将 进口 车 按 国产 车 征收 费用 ,审计 人 员 采 取 了 将 发 票 价 超过 
100 万 元 的 数据 单独 保存 的 方法 进行 数据 清洗 。 检 索 出 的 该 部 分 数据 如 图 8-10 所 示 。 
ET Er 0 | 
06009812311008 | 某 某 威 spoon Soo 


某 某 克 斯 ( 某 某 ) 有 1170000 117000 
某 某 海 1045000 3000 


06009908101007 某 某 克 斯 ( 某 某 ) 有 1000000 100000 
06009907201010 | 某 某 克 斯 某 某 ) 有 1000000 100000 
06009907201012 某 某 克 斯 ( 某 某 ) 有 _1000000 100000 
06009907201013_ 某 某 克 斯 ( 某 某 ) 有 _1000000 100000 





图 8-10 车 购 费 数据 清洗 中 单独 保存 数据 


对 存在 这 些 问题 的 数据 要 认真 进行 分 析 , 查 明 原 因 后 ,才能 分 别 情况 进行 更 改 处 理 。 

示例 : 在 固定 资产 表 中 审计 人 员 发 现 资产 原 值 字段 存在 负 值 的 情况 ,经 复核 转换 的 
记录 ,发现 是 转换 人 员 在 转换 的 过 程 中 将 借方 金额 设 定 为 负 、 贷 方 设 定 为 正 , 导 致 与 审计 
人 员 熟 悉 的 以 正 数 表 示 固 定 资产 原 值 的 规定 不 符合 ,针对 这 种 情况 ,可 用 如 下 SQL 语句 
处 理 : 


Update table set colurm = abs (colunn) where column <0 
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信息 化 和 网 络 化 的 高 速 发 展 使 大 数据 分 析 在 各 行 各 业 都 获得 了 广泛 应 用 。 大 数据 分 
析 在 提高 经 济 和 社会 效益 的 同时 ,也 面临 一 定 的 风险 ,具体 表现 为 : 大 数据 分 析 的 结果 不 
正确 ;大 数据 分 析 得 出 的 结论 不 完备 ;大 数据 在 采集 、 存 储 或 分 析 的 过 程 中 ,数据 被 非法 添 
加 、 修 改 和 删除 ,从 而 导致 数据 质量 下 降 , 分 析 结 果 的 可 信和 度 降低 甚至 出 现 错误 ;大 数据 分 
析 的 结果 泄露 个 人 隐私 :大 数据 被 黑客 窃取 ,从 而 泄露 隐私 数据 等 。 只 有 充分 认识 大 数据 
分 析 面 临 的 这 些 风 险 并 采取 相应 的 对 策 , 才 能 充分 发 挥 大 数据 分 析 的 作用 。 本 章 首先 介 
绍 产生 大 数据 分 析 风 险 的 原因 ,然后 进一步 说 明 大 数据 在 采集 ,处理 与 集成 分析 方面 存 
在 的 风险 ,最 后 详细 叙述 大 数据 分 析 过 程 中 安全 和 隐私 保护 方面 面临 的 风险 及 其 对 策 。 
本 童 的 目的 是 让 读者 对 大 数据 分 析 中 存在 的 风险 做 到 “知己 知 彼 ”, 从 而 防范 和 控制 风险 ， 
保证 大 数据 的 正常 应 用 。 需 要 说 明 的 是 ,从 整体 来 讲 , 目 前 大 数据 风险 的 对 策 还 不 成 熟 ， 
远 远 不 能 满足 实际 应 用 的 需要 。 有 的 对 策 仍 处 于 研究 之 中 ,有 的 技术 和 对 策 虽 然 初 现 双 
形 ,但 存在 适用 范围 和 前 提 条 件 , 只 能 应 用 在 某 些 风险 的 防范 之 中 。 


9.1 大 数据 分 析 的 风险 及 产生 原因 


大 数据 分 析 是 指 对 规模 巨大 的 海量 数据 进行 分 析 , 从 中 寻找 模式 、 相 关 性 和 其 他 有 用 
的 信息 ,帮助 用 户 更 好 地 适应 变化 ,做 出 更 明智 的 决策 。 大 数据 分 析 的 风险 并 非 仅仅 局 限 
于 数据 分 析 和 知识 发 现 的 阶段 ,数据 质量 、 采 集 方法 、 数 据 的 处 理 与 集成 以 及 数据 解释 都 
会 直接 或 间接 影响 大 数据 分 析 的 结果 ,从 而 导致 风险 的 发 生 。 

大 数据 分 析 的 风险 主要 来 自 以 下 三 个 方面 。 

1. 大 数据 固有 的 复杂 性 

高 质量 的 数据 是 大 数据 分 析 真 实 可 靠 的 首要 条 件 , 然 而 大 数据 的 复杂 性 导致 数据 质量 
难以 管控 ,给 后 续 的 数据 采集 与 过 滤 , 数 据 清 理 与 集成 以 及 数据 分 析 带 来 巨大 的 挑战 ,是 导 
致 大 数据 分 析 风 险 的 最 主要 原因 。 大 数据 的 复杂 性 体现 在 四 个 方面 。 首 先 , 大 数据 的 数据 
量 非 常 巨大 ,通常 是 TB 或 PB 数量 级 ,而 且 这 些 数据 关联 关系 复杂 ,质量 良 劳 不 齐 ; 其 次 ,大 
数据 种 类 繁多 ,结构 复杂 , 既 包 含 了 传统 的 结构 化 数据 ,又 包含 了 越 来 越 多 的 文本 、 图 像 声 
音 等 半 结 构 化 数据 和 非 结 构 化 数据 ;再 次 ,大 数据 来 源 复 杂 , 数 据 格式 千差万别 , 既 有 海量 的 
交易 数据 ,又 包含 海量 的 网 络 信息 和 传 感 数据 ;最 后 ,大 数据 价值 密度 低 ,数据 量 越 大 ,里 面 
真正 有 价值 的 东西 所 占 的 比例 就 会 越 少 ,大 数据 分 析 就 像 * 大 海 捞 针 ”。 

2. 大 数据 分 析 的 复杂 性 

目前 虽然 出 现 了 很 多 基于 大 数据 分 析 的 成 功 案 例 ,但 是 现 阶 段 大 数据 分 析 的 技术 和 
方法 还 处 于 “成 长 期 ”, 远 远 不 能 满足 生产 和 生活 中 的 实际 要 求 , 面 临 许多 挑战 。 例 如 ,大 
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数据 的 价值 在 于 从 海量 数据 中 挖掘 出 有 用 的 信息 ,这 依赖 于 高 精度 ,高 效率 的 机 器 学 习 算 
法 来 对 人 类 难以 理解 的 底层 数据 特征 进行 分 析 和 挖掘 。 在 大 数据 时 代 , 半 结构 化 和 非 结 
构 化 数据 量 的 迅猛 增长 ,难以 采用 传统 针对 结构 化 数据 的 分 析 方法 发 现 其 内 部 关系 ; 同 
时 , 随 着 时 间 的 流逝 ,大 数据 中 所 蕴含 的 知识 价值 随 之 递减 ,实时 处 理 成 为 大 数据 分 析 的 
典型 需求 。 在 大 数据 时 代 , 更 多 应 用 场景 的 数据 分 析 从 离线 分 析 转 向 在 线 实 时 分 析 。 当 
很 多 数据 洪流 源源 不 断 地 涌现 时 ,目前 的 大 数据 分 析 方 法 还 不 能 有 效 地 对 其 中 数量 庞大 
的 半 结 构 化 数据 和 非 结构 化 数据 进行 实时 深度 分 析 。 

3. 大 数据 面临 的 隐私 和 安全 风险 

安全 和 隐私 是 信息 化 社会 永恒 的 主题 。 在 大 数据 时 代 , 越 来 越 多 的 数据 以 数字 化 的 
形式 存储 在 电脑 中 ,互联 网 的 发 展 则 使 数据 更 加 容易 产生 和 传播 ,数据 安全 和 隐私 问题 变 
得 越 来 越 严重 ,给 大 数据 分 析 带 来 严峻 的 挑战 ,表现 在 如 下 几 个 方面 。 

(1) 破坏 数据 质量 ,影响 分 析 结 果 的 可 信和 度 

大 数据 来 源 广泛 ,结构 复杂 ,数据 质量 难以 管控 ,黑客 能 够 在 采集 的 数据 源 中 通过 伪 
造 数据 修改 数据 等 方式 ,破坏 数据 的 正确 性 真实 性 和 完备 性 ,导致 数据 分 析 结果 可 信 度 
下 降 甚至 出 现 错误 的 分 析 结 果 。 

(2) 窃取 数据 ,导致 隐私 泄露 

大 数据 的 分 析 处 理 流程 包括 数据 采集 、 存 储 、 传 输 、 集 成 与 处 理 、 分 析 和 解释 等 环节 ， 
敏感 的 数据 (包括 分 析 的 结果 ) 在 经 过 这 些 环节 时 ,可 能 被 黑客 窍 取 ,从 而 导致 隐私 泄露 。 
例如 ,在 基因 大 数据 分 析 中 ,一 个 人 的 基因 序列 属于 敏感 数据 ,因为 基因 序列 能 够 反映 其 
种 族 、 家 族 、. 性 别 、 年 龄 .头发 颜色 .皮肤 颜色 .眼睛 颜色 以 及 患 某 种 疾病 的 风险 等 特征 。 这 
些 基 因数 据 在 传输 和 存储 的 过 程 中 ,如 果 不 加 以 保护 ,就 容易 被 黑客 窃取 ,进而 识别 出 属 
于 这 个 基因 序列 的 个 人 及 其 特征 ,从 而 导致 个 人 隐私 泄露 。 国 外 曾经 有 过 报道 , 某 个 基因 
研究 小 组 收集 了 10 万 个 志愿 者 的 基因 序列 。 尽 管 该 小 组 把 志愿 者 的 姓名 、 出 生年 月 、 邮 
政 编码 和 性 别 作 了 匿名 处 理 , 但 是 把 这 些 基因 序列 数据 和 公民 信息 进行 融合 后 ,最 终 还 是 
甄别 出 84%~~87% 的 志愿 者 身份 。 

(3) 大 数据 分 析 结 果 可 能 泄露 隐私 

大 数据 分 析 是 一 把 双 刃 剑 : 一 方面 ,大 数据 分 析 可 以 发 现 知识 ,提高 决策 的 质量 和 效 
率 ; 另 一 方面 ,大 数据 分 析 也 可 能 挖掘 出 用 户 的 隐私 ,导致 个 人 隐私 泄露 。 例 如 在 电子 商 
务 中 ,网 站 的 推荐 系统 通过 对 顾客 的 购物 信息 (如 购物 时 间 、 购 物 地 点 .具体 所 购物 品 和 购 
物 数量 ) 进 行 分 析 , 可 以 发 现 顾客 的 购物 喜好 ,进而 对 顾客 进行 个 性 化 推荐 ,提高 顾客 的 购 
物 效率 和 购物 体验 。 但 是 推荐 系统 也 可 以 通过 购物 信息 挖掘 出 某 一 位 顾客 所 购 食 品 的 特 
征 ,并 进一步 推断 出 该 顾客 是 否 震 患 糖尿 病 。 


9.2 大 数据 采集 的 风险 


高 质量 的 数据 是 大 数据 分 析 可 靠 的 基础 ,数据 质量 对 于 大 数据 分 析 具 有 十 分 重要 的 
影响 。 目 前 评价 数据 质量 的 优 劣 有 六 个 参考 指标 : 四 完整 性 (completeness) 度量 遗 
失 的 数据 以 及 不 可 用 的 数据 ; @ 规 范 性 (conformity) 一 一 度量 未 按 统一 格式 存储 的 数 

“ 65 < 





大 数据 应 用 分 析 技 术 与 方法 





据 ; 图 一 致 性 (consistency) 一 一 度量 是 否 存在 歧义 的 数据 ; 由 准确 性 (accuracy) 一 一 度 
量 是 否 存 在 不 正确 或 者 过 时 的 数据 ; @@ 唯 一 性 (uniqueness) 度量 重复 数据 或 者 属性 
重复 的 数据 ; @ 关 联 性 (integration ) 度量 缺失 或 未 建立 索引 的 关联 数据 。 大 数据 的 
采集 阶段 主要 关注 其 中 的 完整 性 和 准确 性 。 

大 数据 的 4V 特征 导致 了 大 数据 固有 的 复杂 性 ,这 给 采集 到 真实 、 完 整 , 准 确 的 数据 
带 来 极 大 的 挑战 。 

1. 采集 的 数据 不 准确 

大 数据 时 代 虽 然 各 种 海量 数据 不 断 涌现 ,但 数据 量 大 并 不 代表 这 些 数据 都 是 有 价值 
的 。 如 果 不 根据 分 析 的 目标 有 的 放 矢 地 采集 数据 , 则 可 能 出 现 采集 的 数据 不 准确 ,影响 大 
数据 分 析 的 结果 。 国 内 专家 曾 列举 了 一 个 错误 的 数据 采集 例子 。2013 年 雅安 地 震 以 后 ， 
社交 媒体 (如 微 博 、 微 信 、 人 人 等 ) 的 相关 数据 量 激增 ,这 些 网 站 在 短 时 间 内 就 积累 了 海量 
的 数据 ,但 却 很 难 反 映 地 震 区 域 全 部 的 问题 ,因为 社交 媒体 中 有 关 雅 安 地 震 的 数据 大 部 分 
来 自 成 都 等 大 型 城市 。 这 很 容易 理解 ,大 城市 人 口 密 度 高 ,智能 手机 更 加 普及 ,网 络 覆 盖 
也 更 广 。 而 那些 相对 偏僻 的 地 震 灾 区 ,收集 的 数据 则 少 得 可 怜 。 由 于 电力 、 通 信 系 统 瘫 
痪 ,真正 受灾 最 严重 的 地 区 却 几 乎 统计 不 到 相关 的 数据 。 因 此 ,对 地 震 的 相关 数据 进行 分 
析 的 时 候 , 采 用 上 述 社交 媒体 的 数据 就 不 准确 。 

2. 采集 的 数据 不 完整 

前 面 我 们 讲 过 ,大 数据 价值 密度 低 , 即 数据 量 越 大 ,里 面 真正 有 价值 的 东西 所 占 的 比 
例 就 会 越 少 。 由 于 大 数据 来 源 复杂 ,应 用 需求 也 千差万别 ,锁定 并 采集 这 些 少 量 有 价值 的 
内 容 无 异 于 “沙里 淘金 ”, 稍 有 不 慎 则 很 容易 忽略 ,从 而 导致 采集 的 数据 不 完整 。 

3. 采集 的 数据 不 真实 

大 数据 来 源 复杂 ,很 多 数据 由 不 同 的 机 构 或 组 织 提供 ,采集 数据 的 时 候 很 难 掌控 这 些 
数据 是 否 真实 可 靠 。2014 年 ,国外 社交 媒体 Facebook 的 一 份 报告 显示 ,其 网 站 有 7 600 
万 个 “僵尸 账号 ?”。 在 另 一 个 社交 媒体 Twitter 上 ,很 多 明星 的 僵尸 粉丝 (社交 媒体 中 的 虚 
假 粉丝 ) 数 量 更 是 惊人 。 据 统计 ,著名 演员 贾斯汀 。 比 伯 的 粉丝 中 有 31% 是 僵尸 粉 ,而 著 
名 流行 歌手 史蒂芬 妮 的 僵尸 粉 更 是 占 了 34%。 这 些 “ 僵 尸 账户 ?在 社交 媒体 上 造成 了 虚 
假 的 繁荣 ,很 可 能 会 让 广告 商 对 于 明星 账户 的 商业 价值 产生 错误 的 评估 ,引起 运营 上 的 偏 
差 ,甚至 导致 投资 上 的 失策 。 在 电子 商务 领域 ,电子 商务 网 站 通过 分 析 海量 的 顾客 评论 信 
息 来 向 用 户 提 供 推 荐 服务 ,如 在 顾客 选择 商品 时 列 出 “最 受 好 评 的 商品 “评分 最 高 的 商 
户 ” 等 内 容 。 近 年 来 ,一 些 不 良 商家 雇佣 水 军 通过 虚假 的 “ 刷 好 评 ” 的 方式 来 提高 自己 及 商 
品 的 声誉 ,如 果 电 子 商务 网 站 不 加 验证 地 利用 这 些 虚假 的 好 评 , 则 会 误导 顾客 消费 ,在 经 
营 上 陷入 危机 。 

因此 ,在 采集 大 数据 的 时 候 , 就 需要 从 应 用 目标 出 发 ,明确 以 下 问题 : 需要 什么 样 的 
数据 、 这 些 数据 是 否 足 够 数据 是 从 哪里 来 的 .其 中 有 多 少数 据 是 真正 有 价值 的 .这 些 数据 
有 没有 可 能 存在 虚假 信息 等 。 从 数据 处 理 的 第 一 个 环节 就 开始 减少 误差 对 数据 分 析 的 
于 机 8 
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9.3 大 数据 处 理 与 集成 的 风险 


大 数据 的 处 理 与 集成 主要 是 对 已 经 采集 到 的 数据 进行 适当 的 处 理 ,清洗 去 噪 以 及 进 
一 步 集 成 存储 ,将 这 些 结构 复杂 的 数据 转换 为 单一 的 或 是 便于 处 理 的 数据 结构 ,为 以 后 的 
数据 分 析 打 下 良好 的 基础 。 

大 数据 的 处 理 与 集成 要 为 后 续 的 数据 分 析 提 供 高 品质 的 数据 ,因此 这 个 阶段 输出 的 
数据 要 尽 可 能 满足 数据 质量 的 六 个 评价 指标 , 即 完整 性 、 规 范 性 一 致 性 \ 准 确 性 、 唯 一 性 
和 关联 性 。 从 前 面 的 内 容 中 ,我 们 知道 大 数据 来 源 广泛 ,从 各 种 渠道 采集 获取 的 数据 不 仅 
种 类 繁多 .结构 复杂 ,而且 数据 之 中 还 存在 歧义 、 宛 余 甚至 错误 ,这 给 大 数据 的 处 理 与 集成 
带 来 一 定 的 风险 。 

首先 ,数据 的 清洗 去 品 的 尺度 不 容易 拿捏 。 大 数据 时 代数 据 具 有 价值 密度 低 的 特点 ， 
也 就 是 说 ,大 数据 量 并 不 意味 着 大 信息 量 ,很 多 时 候 它 意味 着 元 余数 据 的 增多 和 垃圾 数据 
的 泛滥 。 因 此 ,对 数据 进行 清洗 和 去 噪 是 十 分 必要 的 ,否则 一 方面 过 多 的 干扰 信息 会 占据 
大 量 的 存储 空间 , 造成 存储 资源 的 浪费 , 另 一 方面 这 些 垃圾 数据 会 对 真正 有 用 的 信息 造 
成 干扰 ,影响 数据 分 析 结 果 。 大 数据 时 代 的 数据 清洗 过 程 必须 更 加 细致 和 专业 , 即 在 数 
据 清 洗 过 程 中 ,清洗 的 粒度 既 不 能 过 细 , 因 为 这 会 增加 数据 清洗 的 复杂 度 , 甚 至 有 可 能 会 
把 有 用 的 信息 过 滤 掉 (可 能 破坏 数据 的 完整 性 或 准确 性 ) ;清洗 的 粒度 也 不 能 过 粗 ( 可 能 
致 数据 元 余 或 者 存在 错误 )。 所 以 ,在 清洗 过 程 中 ,清洗 的 尺度 把 握 不 好 也 会 影响 数据 分 
析 的 质量 。 

其 次 ,大 数据 的 数据 类 型 包含 了 结构 化 数据 以 及 越 来 越 多 的 半 结 构 化 数据 和 非 结构 
化 数据 ,目前 还 没有 一 项 成 熟 的 技术 能 够 自动 发 现 不 同类 型 的 数据 之 间 的 下 义 或 迎 辑 错 
误 。 例 如 ,一 个 文本 数据 和 一 个 图 像 内 容 之 间 是 否 存在 歧义 ,或 者 视频 内 容 与 音频 内 容 之 
间 是 否 存在 逻辑 错误 ,都 不 能 有 效 地 检测 出 来 ,因此 也 会 影响 后 续 数据 分 析 的 质量 。 

最 后 ,数据 转换 质量 难以 掌控 。 在 大 数据 时 代 , 数 据 呈 现 广 泛 的 异 构 性 , 主要 表现 在 
以 下 几 个 方面 。 

(1) 数据 类 型 由 传统 的 结构 化 数据 为 主 逐 步 转 向 结构 化 、 半 结构 化 、 非 结构 化 数据 三 
者 的 并 存 , 而 且 半 结构 化 、 非 结构 化 数据 增长 迅猛 ,所 占 的 比重 快速 提高 。 

(2) 数据 的 来 源 也 逐渐 多 样 化 。 传 统 电 子 数据 的 主要 来 源 是 机 关 、 企 业 和 学 校 等 的 
服务 器 或 者 是 个 人 电脑 ,这 些 设备 位 置 相 对 固定 ,而且 动态 变化 数据 的 比例 不 大 。 在 大 数 
据 时 代 , 随 着 互联 网 和 移动 设备 在 全 球 的 普及 以 及 物 联 网 的 应 用 ,平板 电脑 、 手 机 、 各 种 传 
感 设备 等 产生 的 数据 爆炸 式 增长 ,而 且 这 些 数据 随 着 时 空 变化 而 动态 变化 。 

(3) 传统 的 数据 存储 方式 主要 依靠 关系 型 数据 库 , 但 这 已 经 不 足以 满足 大 数据 时 代 
的 数据 存储 需求 。 为 了 应 对 越 来 越 多 的 海量 数据 和 日 渐 复 杂 的 数据 结构 ,很 多 公司 都 开 
始 研 发 适用 于 大 数据 时 代 的 分 布 式 文件 系统 和 分 布 式 并 行 数据 库 ， 如 Hadoop 的 
HDFS .谷歌 的 BigTable 等 。 在 数据 分 析 之 前 ,数据 格式 的 转换 是 必要 的 ,要 对 这 些 动 态 
变化 并 且 具 有 广泛 差异 性 的 数据 进行 转换 ,过 程 是 非常 复杂 和 难以 管理 的 。 
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9.4 大 数据 分 析 的 风险 


大 数据 处 理 和 分 析 的 终极 目标 是 借助 对 数据 的 理解 辅助 人 们 在 各 类 应 用 中 作出 合理 
的 决策 ,这 依赖 于 高 精度 的 知识 发 现 技术 来 对 人 类 难以 理解 的 底层 数据 特征 进行 深度 挖 
掘 和 分 析 。 由 于 大 数据 分 析 方法 还 处 于 ”成 长 期 ”, 还 有 很 多 不 完善 的 地 方 , 因 此 难以 满足 
各 种 应 用 需求 。 

首先 ,传统 意义 上 的 数据 分 析 主 要 针对 结构 化 数据 展开 , 且 已 经 形成 了 一 整套 行 之 有 
效 的 分 析 体 系 。 例 如 ,利用 数据 库 来 存储 结构 化 数据 ,在 此 基础 上 通过 聚 类 、 关 联 分 析 等 
方法 构建 数据 分 析 模型 来 挖掘 数据 中 隐 含 的 知识 。 在 面 对 大 数据 分 析 时 ,一 方面 由 于 半 
结构 化 和 非 结 构 化 数据 的 存在 ,数据 很 难以 类 似 结构 化 数据 的 方式 准确 构建 出 其 内 部 的 
关系 ; 另 一 方面 海量 数据 流 源 源 不 断 地 到 来 ,需要 实时 处 理 的 数据 很 难 有 足够 的 时 间 去 建 
立 先 验 知识 。 

其 次 ,目前 的 大 数据 分 析 方 法 不 能 胜任 实时 性 的 数据 分 析 。 在 大 数据 时 代 , 随 着 时 间 
的 流逝 ,数据 中 所 蕴含 的 知识 价值 随 之 递减 ,实时 处 理 成 为 大 数据 分 析 的 典型 需求 。 但 是 
目前 仍 未 存在 一 个 通用 的 大 数据 实时 处 理 框架 ,而 且 各 种 工具 实现 实时 处 理 的 方法 各 不 
相同 , 支持 的 应 用 类 型 也 相对 有 限 ,这 导致 实际 应 用 中 往往 需要 根据 自己 的 业务 需求 和 
应 用 场景 对 现 有 的 技术 和 工具 进行 改造 才能 满足 要 求 。 

再 次 ,数据 融合 存在 困难 。 大 数据 时 代数 据 来 源 多 种 多 样 , 既 有 商业 交易 数据 和 科学 
研究 数据 ,又 有 海量 的 社交 媒体 数据 以 及 各 种 传感器 产生 的 数据 。 每 一 种 数据 来 源 都 有 
一 定 的 局 限 性 和 片面 性 ,只 有 对 各 种 来 源 的 原始 数据 进行 融合 才能 反映 事物 的 全 貌 ,事物 
的 本 质 和 规律 往往 隐藏 在 各 种 原始 数据 的 相互 关联 之 中 。 数 据 分 析 时 往往 需要 将 这 些 不 
同 来 源 的 碎片 化 的 数据 进行 融合 ,才能 获得 反映 事物 全 貌 的 完整 数据 ,这 虽然 可 以 增加 数 
据 挖掘 的 深度 ,但 是 目前 还 没有 一 个 很 好 的 技术 能 有 效 地 将 这 些 "一 盘 散 沙 ” 的 数据 充分 
整合 ,因为 这 些 数据 的 格式 千差万别 ,这 就 给 数据 融合 带 来 相当 大 的 困难 。 

最 后 ,目前 大 数据 分 析 技 术 还 不 能 有 效 挖掘 出 隐藏 在 数据 中 的 深层 次 知识 。 例 如 , 目 
前 大 数据 分 析 只 能 告诉 我 们 用 户 正在 做 什么 ,而 不 能 告诉 我 们 他 们 在 做 的 时 候 是 怎么 想 
的 背景 是 怎样 的 ,或 者 有 着 什么 样 的 情绪 。 例 如 ,在 社交 网 络 中 ,通过 大 数据 分 析 可 以 比 
较 容 易 得 到 如 下 分 析 结 果 : 一 段 时 间 内 , 某 个 用 户 和 其 他 3 个 人 每 天 对 话 超过 10 次 , 同 
时 又 和 另外 10 个 人 经 常 发 生 互动 ,但 是 根据 上 述 结果 却 很 难 分 辨 出 这 些 人 中 间 究 竟 哪 些 
联系 是 真挚 的 情感 与 友谊 的 体现 ,而 哪些 联系 只 是 为 了 应 酬 和 生意 。 很 多 时 候 数 字 信 息 
虽然 比较 严谨 ,但 在 做 大 数据 分 析 的 时 候 , 更 重要 的 是 要 挖掘 出 各 种 数字 背后 隐藏 的 各 种 
深层 次 的 知识 ,如 语义 .联系 和 情感 等 。 


9.5 大 数据 解释 的 风险 
对 大 数据 分 析 结果 的 解释 是 大 数据 分 析 流程 的 最 后 一 个 环节 ,也 是 至 关 重 要 的 环 


节 , 关 系 到 用 户 能 否 进行 正确 的 决策 。 如 果 数 据 分 析 的 结果 不 能 得 到 正确 全 面 的 解释 
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和 理解 , 则 会 给 数据 用 户 造成 困扰 ,甚至 会 误导 用 户 。 目 前 在 大 数据 的 解释 技术 特别 
是 可 视 化 展现 技术 方面 还 存在 很 多 瓶颈 问题 和 技术 挑战 ,这 客观 上 造成 了 大 数据 解释 
的 风险 。 

首先 海量 异 构 的 数据 往往 会 有 多 种 特征 ,在 对 分 析 结 果 进 行 解释 的 时 候 , 关 于 这 些 特 
征 的 多 重 指标 可 能 会 导致 分 析 结 论 的 分 歧 。 一 组 结果 在 不 同人 看 来 ,会 得 出 不 同 的 结论 。 
当 一 组 结果 反映 很 多 关键 指标 的 时 候 ,这 些 多 重 指标 会 让 分 析 者 产生 困惑 ,甚至 得 出 与 事 
实 完全 相反 的 结论 。 

其 次 ,大 数据 时 代 的 数据 量 大 ,分 析 更 复杂 ,可 视 化 技术 是 最 佳 的 结果 展示 方式 之 
一 。 当 大 数据 以 直观 的 可 视 化 的 形式 展示 在 分 析 者 面前 时 ,分 析 者 往往 能 够 一 眼 洞悉 
数据 背后 隐藏 的 信息 并 转化 成 知识 及 智慧 。 但 是 可 视 化 展示 的 效果 除了 跟 数 据 有 关 
以 外 ,还 与 展示 形式 、 人 类 视觉 的 敏锐 性 、 分 析 者 面 对 展 示 界 面 时 的 推断 能 力 和 信息 搜 
索 能 力 等 因素 都 有 关 , 其 中 任何 一 个 因素 都 可 能 影响 最 终 可 视 化 分 析 的 效果 。 男 外 ， 
高 维度 的 大 数据 通常 需要 降 维 处 理 才 能 以 平面 或 者 立体 图 形 展示 出 来 ,但 目前 对 于 大 
规模 、 高 维度 和 动态 变化 的 数据 ,通过 可 视 化 技术 动态 来 实时 和 精确 地 展示 出 来 还 是 
一 个 巨大 的 挑战 。 

最 后 ,对 大 数据 的 解释 除了 采用 可 视 化 技术 外 ,还 强调 交互 式 分 析 。 计 算 机 不 仅 要 把 
大 数据 分 析 的 结果 以 图 形 、 图 像 的 方式 呈现 给 读者 ,还 要 能 够 和 用 户 进行 交互 ,根据 用 户 
的 需求 动态 调整 可 视 化 的 形式 和 内 容 , 以 满足 用 户 的 个 性 化 需求 。 在 大 规模 、 高 维度 和 动 
态 变 化 的 数据 环境 中 ,人 机 交互 的 界面 如 何 动态 调整 是 一 个 挑战 。 交 互 式 分 析 还 需要 计 
算 机 精确 理解 用 户 对 数据 的 需求 ,这 又 是 另外 一 个 挑战 。 


9.6 大 数据 的 隐私 和 安全 风险 及 其 对 策 


目前 ,大 数据 是 IT 领域 的 研究 和 应 用 热点 ,受到 了 世界 各 国政 府 、 学 术 界 及 工业 界 
等 社会 各 界 的 广泛 关注 ,发 展 势头 迅猛 。 但 是 大 数据 在 提高 社会 和 经 济 效 益 的 同时 ,也 给 
个 人 和 组 织 的 隐私 以 及 数据 安全 带 来 极 大 的 风险 和 挑战 。 例 如 ,人 们 日 常生 活 中 的 移动 
轨迹 通常 蕴含 了 个 人 的 一 些 隐私 信息 (如 家 庭 住址 、 工 作 单 位 \ 日 常 活动 情况 等 )。 在 大 数 
据 环境 下 ,掌握 了 这 些 移动 轨迹 数据 ,就 能 够 很 容易 地 分 析 发 现 这 些 隐私 信息 ,从 而 导致 
个 人 隐私 泄露 。 国 外 曾 有 研究 表明 ,在 150 万 条 匿名 的 个 人 移动 轨迹 数据 中 ,在 不 依赖 外 
部 其 他 背景 知识 的 情况 下 ,随机 给 出 2 个 时 空 数 据点 ,可 以 甄别 出 50% 的 个 人 敏感 轨迹 
(如 他 是 否 去 过 医院 或 者 警察 局 ) ,而 如 果 给 出 了 4 个 时 空 数 据点 , 则 被 甄别 出 的 敏感 轨迹 
数据 竟 达 到 95%。 又 如 医学 领域 的 基因 研究 中 ,通常 需要 收集 和 共享 病人 或 者 志愿 者 的 
基因 数据 。 这 些 数据 可 以 帮助 医治 心脏 病 、 糖 尿 病 等 疾病 ,但 是 不 可 避免 会 涉及 个 人 隐 
私 。 例 如 ,通过 DNA 序列 分 析 , 可 以 推断 出 某 人 是 否 癌症 患者 。 据 麦肯锡 公司 的 分 析 ， 
如 果 把 教育 交通、 商业 、 金 融 . 医 疗 卫生 石油 .电力 七 个 行业 的 数据 公开 用 于 大 数据 分 析 
的 话 ,可 以 带 来 3 万 亿美 元 的 经 济 利益 ,但 同时 也 会 给 相关 个 人 和 组 织带 来 严峻 的 隐私 泄 
露 风险 。 因 此 ,如 何在 充分 利用 大 数据 的 同时 不 泄露 用 户 的 隐私 ,是 一 个 非常 重要 的 现实 
问题 ,关系 到 大 数据 的 发 展 和 应 用 。 
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大 数据 隐私 是 指 个 人 或 组 织 机 构 等 实体 不 愿意 被 外 部 知道 的 敏感 信息 ,包括 个 人 的 
行为 模式 兴趣 爱好 、 位 置信 息 、 健 康 状 况 、 财 务 状 况 等 。 大 数据 的 隐私 问题 本 质 上 来 自 大 
数据 中 的 敏感 信息 的 泄露 ,因此 ,保护 大 数据 隐私 最 根本 的 目的 就 是 保护 敏感 数据 不 被 泄 
露 。 目 前 ,国内 外 专家 从 如 下 两 个 角度 来 研究 和 解决 大 数据 的 隐私 风险 : 大 数据 处 理 流 
程 存在 的 隐私 风险 和 大 数据 处 理 平台 带 来 的 隐私 风险 。 


9.6.1 大 数据 处 理 流程 的 隐私 风险 


我 们 在 本 书 第 2 章 中 介绍 过 大 数据 的 处 理 流程 包含 数据 采集 数据 处 理 与 集成 .数据 
分 析 和 数据 解释 四 个 阶段 。 数 据 采 集 负 责 各 种 数据 源 收集 和 存储 所 需要 的 信息 ;数据 的 
处 理 与 集成 主要 是 对 已 经 采集 到 的 数据 进行 适当 处 理 , 正 如 前 面 一 章 所 介绍 的 ,包括 消除 
宛 余 ,清除 不 一 致 的 数据 以 及 进一步 的 集成 存储 ;数据 分 析 从 大 数据 中 挖掘 发 现 有 价值 的 
模型 或 规则 ;数据 解释 主要 通过 可 视 化 、 数 据 溯源 等 技术 来 展示 大 数据 的 分 析 结 果 。 在 大 
数据 的 处 理 流 程 中 ,隐私 风险 主要 集中 在 前 面 三 个 阶段 。 

1. 数据 采集 阶段 的 隐私 风险 

在 大 数据 环境 下 ,有 许多 个 人 数据 也 许 是 在 用 户 不 知情 或 未 经 同意 的 情况 下 被 收集 
的 。 例 如 ,一 些 商 家 在 提供 服务 的 同时 也 收集 个 人 的 购物 记录 、 手 机 通话 记录 、 个 人 移动 
轨迹 、 网 站 访问 和 登录 记录 等 。2011 年 4 月 (纽约 时 报 ) 报 道 ,苹果 公司 通过 iPhone 系统 
在 用 户 毫 无 觉察 的 情况 下 跟踪 并 收集 用 户 的 地 理 位 置信 息 。 另 外 ,谷歌 公司 也 通过 浏览 
器 在 用 户 不 知情 的 情况 下 收集 用 户 的 上 网 搜索 记录 ,从 而 掌握 用 户 的 上 网 行为 ,政治 倾向 
和 消费 习惯 等 。 这 些 个 人 数据 一 方面 可 以 帮助 商家 了 解 顾客 的 使 用 情况 ,从 而 更 好 地 提 
供 服 务 ;但 是 男 一 方面 ,如 果 这 些 数据 被 不 可 信 的 商家 收集 或 者 贩卖 给 恶意 的 攻击 者 , 则 
可 能 导致 个 人 隐私 泄露 。 例 如 ,商家 通过 签到 服务 采集 用 户 签到 的 地 理 位 置信 息 , 如 果 这 
些 信息 被 非法 恶意 使 用 , 则 可 能 通过 签到 的 位 置信 息 以 及 签到 的 位 置 序列 推测 出 用 户 的 
家 庭 住址 单位 位 置 和 移动 轨迹 等 个 人 隐私 数据 。 

上 述 在 用 户 不 知情 或 者 未 经 同意 情况 下 收集 数据 的 现象 在 大 数据 时 代 非 常 普遍 , 隐 
藏 着 巨大 的 隐私 风险 。 目 前 这 类 风险 还 缺乏 法 律 法 规 的 监管 ,主要 依靠 商家 的 自律 和 自 
觉 遵守 某 些 规范 来 确保 用 户 隐私 不 被 泄露 。 确 保 用 户 在 其 个 人 数据 被 采集 时 有 知情 权 和 
授权 允许 ,让 用 户 能 够 随时 掌握 个 人 数据 的 使 用 情况 ,以 及 发 现 恶意 使 用 后 ,用 户 如 何 及 
时 销毁 个 人 数据 等 ,这 些 权 利 的 实施 还 需要 政府 出 台 相 关 的 法 律 法 规 。 

2. 数据 处 理 与 集成 阶段 的 隐私 风险 

数据 处 理 与 集成 阶段 的 一 个 重要 的 工作 ,是 把 从 各 个 分 散 的 数据 源 采集 到 的 数据 进 
行 集成 和 融合 ,从 而 更 好 地 服务 于 数据 的 分 析 与 管理 。 例 如 ,商品 零售 商 集成 线 上 、 线 下 
的 销售 记录 ,可 以 获得 消费 者 更 多 的 信息 ,预测 消费 者 的 购物 偏好 ;又 如 ,地 图 导航 服务 提 
供 商 集成 不 同 路 段 上 的 位 置 传感器 数据 ,可 以 获得 更 好 的 道路 规划 和 交通 路 线 。 然 而 多 
个 数据 源 的 集成 与 融合 容易 推断 出 用 户 的 个 人 敏感 信息 ,从 而 给 隐私 保护 带 来 严峻 的 挑 
战 。 例 如 ,图 9-1 所 示 是 两 个 来 源 不 同 的 数据 记录 ,上 面 一 条 是 病人 的 医疗 记录 ,包含 了 
用 户 名 .身份 证 号 疾病、 治疗 方案 .出 生年 月 .性 别 和 邮编 ,为 了 保护 用 户 的 隐私 ,其 中 用 
户 名 和 身份 证 号 用 随机 数字 代替 ;下 面 一 条 是 选民 记录 ,包含 了 用 户 名 、 地 址 、 出 生年 月 、 
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性 别 和 邮编 。 如 果 仅 仅 只 有 医疗 记录 ,很 难 从 中 识别 出 一 名 具体 的 病人 。 但 是 如 果 同 时 
拥有 这 两 条 记录 并 把 它们 相关 联 ,如 图 中 阴影 部 分 内 容 所 示 , 则 可 以 通过 选民 记录 里 面 的 
出 生年 月 性别 和 邮编 与 医疗 记录 里 面 的 出 生年 月 .性 别 和 邮编 进行 匹配 ,推测 出 医疗 记 
录 里 面 的 某 一 名 具体 的 病人 。 

另外 据 报 道 ,美国 最 大 的 互联 网 服务 提供 商 之 一 美国 在 线 服务 公司 (AOL) ,为 了 保 
护 用 户 的 隐私 , 曾 把 用 户 搜索 记录 里 面 的 名 字 和 身份 证 号 全 部 替换 成 随机 数 。 照 理 说 经 
过 这 种 匿名 和 模糊 化 处 理 后 ,用 户 的 隐私 应 该 安然 无 盖 , 然 而 4 纽约 时 报 》 的 一 名 记者 还 是 
通过 其 他 背景 知识 推断 出 其 中 一 名 用 户 是 佐治 亚 州 的 一 名 寡妇 。 

医疗 记录 数据 ， 

和， | i | 疾病 治疗 方案 






































选民 记录 数据 : 


























图 9-1 两 个 数据 源 的 集成 与 融合 导致 的 隐私 泄露 


3. 数据 分 析 阶 段 的 隐私 风险 

大 数据 的 计算 分 析 能 力 能 够 在 海量 数据 中 “大 海 捞 针 ” ,发现 其 中 隐 含 的 深层 次 的 信 
息 ,导致 隐私 信息 的 泄露 。 例 如 ,通过 对 用 户 移动 轨迹 的 分 析 , 可 以 挖掘 出 用 户 频繁 发 生 
的 行为 .行为 之 间 的 相关 性 以 及 用 户 行 为 的 历史 轨迹 等 ,这 不 仅 会 泄露 用 户 历史 行为 的 隐 
私 而 且 能 预测 用 户 未 来 的 行为 。 又 如 ,大 数据 下 的 电子 商务 网 站 可 以 利用 其 个 性 化 推荐 
系统 挖掘 出 用 户 的 兴趣 特点 和 购买 行为 ,向 用 户 推 荐 其 感 兴趣 的 商品 和 信息 。 然 而 ,用 户 
购买 的 商品 信息 和 行为 模式 也 很 容易 被 电子 商务 网 站 挖掘 出 来 ,进而 导致 隐私 信息 的 

大 数据 分 析 带 来 的 隐私 风险 包括 直接 风险 和 间接 风险 。 直 接 风险 是 指 由 数据 分 析 结 
果 可 能 泄露 隐私 信息 ,上 述 例子 中 的 用 户 移动 轨迹 数据 和 购买 行为 的 挖掘 结果 能 够 泄露 
隐私 就 属于 这 类 ;间接 风险 是 指 大 数据 分 析 方 法 可 能 导致 原 有 的 隐私 保护 方法 的 失败 。 
例如 ,医疗 数据 库 原来 可 以 通过 匿名 或 者 模糊 的 方法 来 保护 病人 的 隐私 ,但 大 数据 的 分 析 
方法 通过 数据 之 间 的 关联 ,可 以 定位 或 发 现 具体 某 一 位 病人 的 信息 ,从 而 导致 这 些 原 有 的 
隐私 保护 方法 失效 。 

现在 专家 普遍 认为 ,大 数据 分 析 的 隐私 风险 主要 来 自 三 个 方面 。 第 一 个 是 新 型 计算 
平台 的 强大 处 理 能 力 。 在 大 数据 环境 下 ,以 Hadoop 和 spark 为 代表 的 计算 框架 具有 强 
大 的 处 理 能 力 ,能 够 以 批 处 理 或 者 流 式 处 理 方 式 并 行 处 理 海 量 的 数据 。 第 二 个 是 基于 这 
些 计 算 框架 开发 出 了 更 加 快速 的 算法 。 例 如 ,基于 Hadoop 的 快速 聚 类 方法 k-center 和 
k-median、 多 维 聚 类 方法 BoW 和 关联 聚 类 方法 Co-Cluster 等 高 性 能 的 算法 一 方面 能 够 深 
入 分 析 大 数据 中 细小 的 、 彼 此 之 间 毫 不 关联 的 数据 碎片 ,从 而 发 现 更 深层 次 的 知识 ; 另 一 
方面 也 为 恶意 分 析 者 提供 了 发 现 隐私 数据 的 快速 方法 。 第 三 个 是 复杂 的 数据 分 析 模 型 。 
以 前 单一 的 分 类 、 聚 类 等 模型 已 经 不 能 应 对 大 数据 的 海量 数据 和 多 样 性 ,进而 出 现 了 更 为 
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复杂 和 高 效 的 数据 分 析 模 型 ,如 基于 随机 优化 的 分 类 方法 SDCA 和 回归 分 析 方 法 SAG 。 
这 些 数据 分 析 模 型 有 助 于 从 大 数据 中 挖掘 用 户 隐 私 。 


9.6.2 大 数据 处 理 平 台 带 来 的 安全 和 隐私 风险 


正如 本 书 第 2 章 所 述 , 云 计算 技术 是 目前 大 数据 存储 和 处 理 的 重要 平台 (简称 云 平 
台 ,提供 云 计算 服务 的 机 构 称 为 云 服 务 提供 商 )。 人 们 一 方面 可 以 利用 云 平 台 的 存储 能 力 
来 保存 海量 的 大 数据 , 另 一 方面 又 可 以 基于 云 平台 的 强大 计算 能 力 来 分 析 和 处 理 大 数据 。 
云 平台 虽然 给 大 数据 的 应 用 和 发 展 提供 了 强 有 力 的 支持 ,但 同时 也 给 大 数据 的 应 用 带 来 
了 一 定 的 隐私 风险 ,主要 体现 在 大 数据 的 存储 、 搜 索 和 计算 三 个 方面 。 云 平台 隐私 风险 的 
最 根本 原因 在 于 用 户 数据 保存 在 云 服务 提供 商 完全 掌控 的 云 平台 中 ,用 户 丧 失 了 对 数据 
的 绝对 控制 权 , 而 云 服务 提供 商 并 不 是 完全 可 信任 的 。 

1. 大 数据 存储 面临 的 隐私 风险 

随 着 大 数据 的 大 量 涌现 ,人 们 对 存储 空间 的 需求 越 来 越 大 ,在 这 种 趋势 下 ,基于 云 平 
台 的 存储 方式 也 应 运 而 生 。 这 种 存储 方式 利用 云 平台 强大 的 存储 能 力 , 把 数据 存放 到 云 
平台 中 ,使 用 者 可 以 在 任何 时 间 、 任 何 地 方 ,通过 任何 可 联网 的 装置 连接 到 云 上 方便 地 存 
取 数 据 。 

基于 云 平台 的 大 数据 存储 中 ,大 数据 的 拥有 者 把 自己 的 数据 存储 在 云 平台 上 后 , 云 服 
务 提供 商 或 者 非法 入 侵 的 黑客 可 以 偷 帘 数 据 内 容 ,还 可 以 未 经 数据 拥有 者 的 同意 把 数据 
泄露 给 其 他 未 授权 的 第 三 方 ,从 而 导致 隐私 数据 的 泄露 。 近 年 来 ,由 于 黑客 的 非法 入 侵 和 

云 平台 管理 员 的 不 当 操 作 造 成 了 多 起 云 安 全 事故 ,直接 导致 了 大 量 用 户 资料 和 私人 数据 

的 泄露 。 例 如 ,谷歌 公司 在 2011 年 由 于 黑客 和 人 侵 ,发 生 了 Gmail 大 规模 用 户 数据 泄露 事 
件 。 另 外 ,由 于 用 户 丧 失 了 对 数据 的 绝对 控制 权 , 云 服务 提供 商 可 以 非法 修改 .删除 或 添 
加 数据 的 内 容 , 从 而 破坏 数据 的 真实 性 和 完整 性 。 为 了 避免 这 些 隐私 风险 ,通常 采用 加 密 
的 方法 来 确保 数据 隐私 不 被 泄露 并 防止 数据 被 非法 修改 和 破坏 ,具体 方法 将 在 下 一 
介绍 。 

2. 大 数据 搜索 面临 的 隐私 风险 

大 数据 的 拥有 者 把 自己 的 海量 数据 存储 在 云 平台 上 后 ,为 了 高 效 管理 和 利用 数据 , 需 
要 对 这 些 数据 进行 搜索 。 如 上 所 述 ,为 了 避免 数据 隐私 泄露 ,这些 数据 都 是 加 密 后 以 密 文 
的 形式 保存 在 云 平台 上 的 。 要 在 这 些 加 密 的 数据 上 完成 检索 工作 ,数据 的 使 用 者 有 两 个 
选择 。 第 一 个 选择 是 把 云 平台 上 保存 的 加 密 数 据 全 部 取 回 本 地 ,解密 后 再 用 关键 词 检索 。 
这 种 方法 效率 非常 低 , 不 仅 下 载 过 程 会 占用 过 多 的 网 络 带宽 ,也 会 占用 过 多 的 本 地 存储 ， 
而 且 解 密 过 程 还 会 消耗 大 量 的 本 地 计算 资源 ; 男 一 种 极端 的 方法 是 把 关键 词 和 加 密 数据 
的 密 钥 提供 给 云 平 台 , 让 云 平台 把 数据 解密 ,然后 在 明文 数据 上 根据 关键 词 检索 ,这 无 疑 
又 会 让 原来 加 密 保护 的 数据 重新 曝光 在 云 服务 提供 商 或 者 非法 用 户 的 视线 之 下 ,从 而 泄 
露 数据 的 隐私 。 

3. 大 数据 计算 面临 的 隐私 风险 

云 计算 的 强大 处 理 能 力 是 大 数据 发 展 和 应 用 的 重要 支撑 ,在 大 数据 环境 下 ,数据 拥有 
者 或 者 其 他 用 户 通常 希望 利用 云 平 台 强 大 的 计算 能 力 分 析 处 理 大 数据 并 将 计算 结果 返 
= 22°% 
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回 ,然而 作为 计算 输入 的 大 数据 或 者 计算 结果 可 能 是 非常 机 密 的 ,如 果 不 加 以 保护 , 则 云 
服务 提供 商 能 够 知晓 这 些 数据 ,从 而 导致 隐私 泄露 。 


9.6.3 保护 大 数据 隐私 和 安全 的 对 策 


由 于 大 数据 及 其 处 理 流程 的 特点 ,传统 的 隐私 保护 理论 和 技术 已 不 能 很 好 地 避免 大 
数据 处 理 流程 中 的 隐私 泄露 。 人 们 已 经 开发 了 一 些 行 之 有 效 的 隐私 保护 技术 ,下 面 我 们 
选择 其 中 重要 的 技术 进行 介绍 。 需 要 说 明 的 是 ,目前 没有 一 种 万 能 的 方法 能 够 解决 所 有 
隐私 问题 ,每 一 种 方法 都 有 自己 的 优 缺 点 和 应 用 场景 。 

1. 匿名 化 技术 

匿名 化 是 保护 隐私 的 重要 技术 , 它 的 思想 是 通过 隐藏 或 者 模糊 的 方法 使 数据 不 能 被 
精确 识别 ,例如 生活 中 可 以 用 随机 数 或 者 其 他 字符 替换 人 
的 名 字 来 实现 匿名 。K- 匿 名 技术 是 一 种 重要 的 匿名 技术 ， 

它 的 思想 可 以 通过 在 基于 位 置 的 服务 中 的 应 用 示例 来 说 

明 。 如 图 9-2 所 示 ,假设 K 是 5。 在 基于 位 置 的 服务 中 ,如 

果 一 个 用 户 想 要 查询 某 一 个 医院 的 坐标 ,位 置 服务 器 收 到 

用 户 的 查询 请 求 后 ,并 不 是 只 返回 该 医院 的 精确 坐标 给 用 

户 , 因 为 观察 到 这 个 返回 数据 的 人 会 推测 出 用 户 可 能 去 医 

院 看 病 , 从 而 泄露 用 户 的 隐私 。 相 反 , 位 置 服务 器 返回 给 用 

户 的 位 置信 息 是 包含 了 该 医院 在 内 的 一 个 区 域内 (如 图 9-2 图 9-2 K- 匿 名 技术 示例 

中 的 圆 形 区 域 ) 的 5 个 地 理 位 置 的 坐标 (如 图 9-2 中 的 其 他 

黑 点 ) ,再 让 用 户 从 中 找到 自己 需要 的 位 置 。 其 他 人 只 知道 这 5 个 位 置信 息 , 但 是 不 知道 
用 户 具体 需要 的 是 哪 一 个 位 置 , 从 而 起 到 了 保护 用 户 隐私 的 目的 。 

2. 数据 加 密 存 储 

当 大 数据 保存 在 云 平台 中 时 ,为 了 保护 数据 的 隐私 不 被 泄露 ,采用 加 密 技 术 来 确保 除 
了 数据 拥有 者 和 授权 用 户 能 够 访问 数据 明文 以 外 ,包括 云 服 务 提供 商 在 内 的 其 他 人 都 无 
法 得 到 数据 明文 。 数 据 加 密 存 储 和 访问 授权 如 图 9-3 所 示 ,图 中 包括 三 个 参与 者 ,分 别 是 
数据 拥有 者 、 云 服务 提供 商 和 用 户 。 数 据 加 密 存 储 和 访问 授权 的 过 程 如 下 : 






云 服 务 提 供 商 





4. 取 回 数据 并 解密 
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图 9-3 数据 加 密 存 储 及 访问 示意 图 
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(1) 数据 拥有 者 把 数据 加 密 后 上 传 到 云 平台 保存 ,由 于 不 知道 加 密 的 密 钥 , 云 服务 提 
供 商 以 及 非 授权 的 用 户 都 不 知道 数据 明文 ,所 以 数据 的 隐私 得 到 保护 ; 

(2) 当 某 位 用 户 需 要 访问 这 些 数据 时 ,他 先 向 数据 拥有 者 发 起 访问 请 求 ; 

(3) 数据 拥有 者 如 果 授 权 该 用 户 访问 这 些 数据 , 则 把 数据 加 密 的 密 钥 发 送 给 用 户 ; 

(4) 用 户 从 云 平台 取 回 数据 后 ,用 获得 的 密 钥 解 密 数 据 , 获 得 数据 明文 。 

3. 数据 完整 性 保护 

数据 完整 性 保护 是 指数 据 拥有 者 把 数据 保存 在 云 平 台 上 后 ,数据 不 能 有 丝毫 遗失 或 
损坏 ,也 不 能 被 伪造 或 者 算 改 。 数 据 完 整 性 保护 的 思想 如 图 9-4 所 示 。 


( 〇 ”数据 | [完整 性 证 明 CEE 


| 六 守 炬 性 证 明 
| 数据 | | 完整 作证 明 云 服务 提供 商 


图 9-4 数据 完整 性 保护 示意 图 




















数据 拥有 者 





首先 ,数据 拥有 者 在 上 传 数据 到 云 平台 之 前 ,根据 数据 内 容 采 用 密码 技术 生成 一 个 不 
可 伪造 或 筑 改 的 完整 性 证 明 , 然 后 把 数据 (或 者 加 密 后 的 数据 ) 和 相应 的 完整 性 证 明 一 起 
上 传 到 云 平 台中 保存 。 当 数据 拥有 者 需要 查验 保存 在 云 平台 上 的 数据 是 否 存在 遗失 或 者 
伪造 等 情形 时 ,他 从 云 平 台 取 回 数据 和 相应 的 完整 性 证 明 , 再 根据 取 回 的 数据 重新 计算 一 
个 完整 性 证 明 ,把 这 个 新 计算 的 完整 性 证 明和 原来 保存 在 云 平台 上 的 完整 性 证 明 进 行 比 
对 ,如果 不 一 致 ,就 说 明 数 据 存在 遗失 或 者 算 改 。 

4. 同 态 加 密 技术 

同 态 加 密 技 术 是 一 种 新 型 的 加 密 技 术 , 它 的 特点 是 直接 对 加 密 数 据 进 行 诸如 计算 、 比 
较 等 操作 ,得 出 正确 的 结果 ,而 在 整个 处 理 过 程 中 无 须 对 数据 进行 解密 ,输入 的 数据 和 输 
出 的 处 理 结果 全 部 以 密 文 的 形式 存在 ,只 有 拥有 密 钥 的 用 户 才能 解密 获得 处 理 结果 。 同 
态 加 密 既 保证 了 输入 数据 的 安全 ,又 确保 处 理 结果 的 隐私 不 被 泄露 ,因此 特别 适合 基于 云 
平台 的 大 数据 处 理 的 隐私 保护 。 同 态 加 密 的 原理 如 图 9-5 所 示 , 图 中 数据 拥有 者 希望 利 
用 云 平台 强大 的 计算 能 力 计 算 两 个 数 Xl1 和 X2 相 加 的 和 ,但 是 不 希望 云 服 务 提供 商 知道 
Xl 和 X2 以 及 运算 结果 的 具体 内 容 。 数 据 拥有 者 可 以 采用 同 态 加 密 方法 实现 这 一 目的 。 
他 先 分 别 加 密 Xl 和 X2 获得 相应 的 密 文 C1 和 C2, 然 后 把 Cl 和 C2 上 传 到 云 平台 , 云 平 
台 基 于 Cl 和 C2 通过 同 态 加 密 技 术 计 算得 到 Xl 和 X2 相 加 的 和 的 密 文 Cs。 数据 拥有 者 
从 云 平台 获得 Cs 后 ,解密 Cs 得 到 Xl 和 X2 相 加 的 结果 。 整 个 处 理 过 程 中 云 平 台 无 须 对 
Cl 和 C2 进行 解密 ,计算 结果 也 以 密 文 形式 存在 ,只 有 拥有 密 钥 的 数据 拥有 者 才能 解密 
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图 9-5 同 态 加 密 技术 示例 
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获得 处 理 结果 。 

5. 保护 隐私 的 信息 检索 技术 

如 前 所 述 ,为 了 保护 大 数据 的 隐私 不 被 泄露 ,通常 把 数据 加 密 后 再 存储 在 云 平台 中 。 
从 用 户 的 角度 来 看 , 接 下 来 一 个 重要 的 工作 就 是 在 这 些 加 密 的 数据 中 进行 检索 ,以 方便 使 
用 和 维护 这 些 大 数据 。 保 护 隐 私 的 信息 检索 技术 的 目的 是 让 用 户 从 保存 在 云 平台 上 的 加 
密 数 据 中 检索 需要 的 数据 ,并 且 不 会 泄露 数据 以 及 检索 关键 词 的 内 容 。 这 里 值得 一 提 的 
是 检索 用 的 关键 词 的 内 容 也 要 防止 隐私 泄露 ,如 果 关 键 词 的 内 容 泄 露 了 ,那么 云 服务 提供 
商 或 者 其 他 非 授 权 的 人 员 可 以 根据 关键 词 的 内 容 , 推 测 出 检索 出 来 的 加 密 文 件 的 内 容 。 
保护 隐私 的 信息 检索 技术 的 原理 如 图 9-6 所 示 ,分 成 如 下 四 个 步骤 。 

(1) 数据 拥有 者 用 密 钥 加 密 数 据 及 其 索引 词 ,然后 把 加 密 后 的 数据 以 及 加 密 后 的 索 
引 词 上 传 到 云 平台 保存 ,由 于 数据 及 其 索引 词 都 是 加 密 的 ,所 以 它们 的 内 容 不 会 泄露 给 非 
授权 的 人 (如 云 服 务 提供 商 ); 

(2) 当 数 据 拥 有 者 需要 检索 某 一 个 数据 的 时 候 , 他 先 采用 加 密 算 法 加 密 检索 的 关键 
词 ,并 把 加 密 后 的 关键 词 上 传 到 云 平 台 服 务 器 进行 检索 ; 

(3) 云 平台 收 到 加 密 的 关键 词 后 ,结合 保存 在 云 平台 中 的 加 密 的 索引 词 ,找到 相应 的 
数据 并 把 它 下 传 给 数据 拥有 者 ; 

(4) 数据 拥有 者 解密 收 到 的 数据 ,就 获得 了 所 需要 的 检索 内 容 。 

检索 过 程 中 关键 词 ,索引 词 和 检索 到 的 数据 都 是 加 密 的 ,所 以 云 服务 提供 商 及 其 他 非 
授权 访问 的 人 都 不 知道 检索 的 内 容 。 从 而 保护 了 数据 的 隐私 。 


一 1 加 窒 后 的 数据 ， 加 给 后 的 索引 记 


2. 加 密 后 的 关键 辣 人 太太 
3. 检索 到 的 加 密 数 据 
服务 近 供 府 


数据 拥有 者 





图 9-6 保护 隐私 的 信息 检索 技术 示意 图 
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第 10 章 大 数据 治理 简介 


通过 前 面 章 节 的 学 习 , 我 们 已 经 越 来 越 清楚 地 看 到 , 随 着 计算 机 技术 及 网 络 通信 技术 
的 普及 和 发 展 ,人 类 进入 了 大 数据 时 代 。 我 们 每 天 面临 不 断 增 加 的 海量 数据 ,包括 电子 商 
务 的 网 上 交易 数据 ,Web 网 页 的 内 容 , 社 交 媒 体 的 文本 、 视 频 和 图 片 , 物 联 网 和 可 穿戴 设 
备 产 生 的 各 种 各 样 的 传 感 数据 等 。 数 据 已 成 为 宝贵 的 资源 ,对 于 科学 研究 .企业 经 营 和 国 
家 管理 都 具有 重要 的 战略 意义 。 由 于 大 数据 具有 容量 巨大 、 结 构 复杂 多 样 .价值 密度 低 的 
特点 ,因此 如 何 管 理 好 并 充分 利用 这 些 海 量 数 据 成 为 大 数据 时 代 的 迫切 需要 。 在 这 种 背 
景 下 ,大 数据 治理 应 运 而 生 。 大 数据 治理 的 目的 就 是 要 保证 数据 资源 的 正确 可靠 ,安全 、 
可 用 ,并 充分 发 挥 大 数据 的 价值 。 本 章 简 要 介绍 大 数据 治理 的 概念 和 内 容 ,然后 通过 一 个 
数据 质量 控制 的 案例 来 说 明 大 数据 治理 的 思想 。 


10.1 大 数据 治理 的 必要 性 


大 数据 治理 (big data governance) 是 用 好 大 数据 资源 ,充分 发 挥 大 数据 价值 的 重要 手 
委 。 通 俗 地 讲 ,大 数据 治理 是 组 织 内 部 管理 好 和 使 用 好 大 数据 并 使 之 成 为 战略 资产 的 一 
个 规范 和 政策 的 集合 ,具体 内 容 包 括 维护 和 提高 数据 质量 、 数 据 资源 的 保值 和 增值 保护 
数据 的 安全 和 隐私 、 规 范 用 户 使 用 数据 的 行为 和 追 责 、 协 调 组 织 内 部 使 用 数据 资源 的 需 

下 面 我 们 通过 两 个 案例 来 理解 大 数据 治理 的 必要 性 。 

案例 一 : 美国 火星 气象 卫星 发 射 失败 。 发 射 太空 探测 器 需要 大 量 的 数据 ,如 果 这 
些 数据 的 可 靠 性 没有 保证 , 则 会 带 来 灾难 性 的 后 果 。1999 年 ,美国 国家 航空 航天 局 
CNASA) 发 射 了 一 颗 火 星 探测 气象 卫星 。 经 过 9 个 月 的 飞行 ,在 切换 进入 火星 轨道 之 
后 ,卫星 突然 意外 地 进入 了 比 预定 高 度 低 170 千 米 的 火星 轨道 ,最 终 这 颗 卫 星 因为 不 
能 承受 火星 低 纬度 大 气 的 强烈 摩 探 而 坠落 ,并 燃烧 列 尽 。 事 后 经 过 调查 ,事故 的 原因 
是 NASA 的 工程 师 在 设计 卫星 的 时 候 使 用 的 测量 单位 是 英制 单位 磅 ”, 而 不 是 NASA 
间 定 的 “牛顿 ”。 卫 星 发 射 前 工程 师 并 没有 检查 数据 ,从 而 未 发 现 这 个 错误 。 这 两 个 测 
量 单位 之 间 的 误差 最 终 使 卫星 的 轨道 高 度 计 算出 现 170 千 米 的 巨大 偏差 ,从 而 导致 卫 
星 发 射 失败 。 这 个 看 似 很 小 的 错误 导致 NASA 3. 28 亿美 元 的 损失 并 使 美国 的 太空 探 
索 推迟 了 数 年 。 

案例 二 : 自动 驾驶 汽车 识别 交通 标志 出 现 错误 。 以 深度 学 习 为 代表 的 新 一 代 人 工 智 
能 技术 在 自动 驾驶 汽车 上 获得 了 成 功 应 用 。 自 动 驾 驶 汽车 上 有 一 个 充当 驾驶 员 眼 睛 的 摄 
像 头 , 它 的 作用 是 探测 汽车 行驶 过 程 中 的 环境 变化 ,并 及 时 作出 反应 。 例 如 ,摄像 头发 现 
了 停车 标志 ,就 应 该 及 时 触发 制 动 使 汽车 停止 运行 。 这 需要 利用 大 量 不 同 的 交通 标志 图 
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能 承受 火星 低 纬度 大 气 的 强烈 摩 探 而 坠落 ,并 燃烧 列 尽 。 事 后 经 过 调查 ,事故 的 原因 
是 NASA 的 工程 师 在 设计 卫星 的 时 候 使 用 的 测量 单位 是 英制 单位 磅 ”, 而 不 是 NASA 
间 定 的 “牛顿 ”。 卫 星 发 射 前 工程 师 并 没有 检查 数据 ,从 而 未 发 现 这 个 错误 。 这 两 个 测 
量 单位 之 间 的 误差 最 终 使 卫星 的 轨道 高 度 计 算出 现 170 千 米 的 巨大 偏差 ,从 而 导致 卫 
星 发 射 失败 。 这 个 看 似 很 小 的 错误 导致 NASA 3. 28 亿美 元 的 损失 并 使 美国 的 太空 探 
索 推迟 了 数 年 。 

案例 二 : 自动 驾驶 汽车 识别 交通 标志 出 现 错误 。 以 深度 学 习 为 代表 的 新 一 代 人 工 智 
能 技术 在 自动 驾驶 汽车 上 获得 了 成 功 应 用 。 自 动 驾 驶 汽车 上 有 一 个 充当 驾驶 员 眼 睛 的 摄 
像 头 , 它 的 作用 是 探测 汽车 行驶 过 程 中 的 环境 变化 ,并 及 时 作出 反应 。 例 如 ,摄像 头发 现 
了 停车 标志 ,就 应 该 及 时 触发 制 动 使 汽车 停止 运行 。 这 需要 利用 大 量 不 同 的 交通 标志 图 
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通过 前 面 章 节 的 学 习 , 我 们 已 经 越 来 越 清楚 地 看 到 , 随 着 计算 机 技术 及 网 络 通信 技术 
的 普及 和 发 展 ,人 类 进入 了 大 数据 时 代 。 我 们 每 天 面临 不 断 增 加 的 海量 数据 ,包括 电子 商 
务 的 网 上 交易 数据 ,Web 网 页 的 内 容 , 社 交 媒 体 的 文本 、 视 频 和 图 片 , 物 联 网 和 可 穿戴 设 
备 产 生 的 各 种 各 样 的 传 感 数据 等 。 数 据 已 成 为 宝贵 的 资源 ,对 于 科学 研究 .企业 经 营 和 国 
家 管理 都 具有 重要 的 战略 意义 。 由 于 大 数据 具有 容量 巨大 、 结 构 复杂 多 样 .价值 密度 低 的 
特点 ,因此 如 何 管 理 好 并 充分 利用 这 些 海 量 数 据 成 为 大 数据 时 代 的 迫切 需要 。 在 这 种 背 
景 下 ,大 数据 治理 应 运 而 生 。 大 数据 治理 的 目的 就 是 要 保证 数据 资源 的 正确 可靠 ,安全 、 
可 用 ,并 充分 发 挥 大 数据 的 价值 。 本 章 简 要 介绍 大 数据 治理 的 概念 和 内 容 ,然后 通过 一 个 
数据 质量 控制 的 案例 来 说 明 大 数据 治理 的 思想 。 


10.1 大 数据 治理 的 必要 性 


大 数据 治理 (big data governance) 是 用 好 大 数据 资源 ,充分 发 挥 大 数据 价值 的 重要 手 
委 。 通 俗 地 讲 ,大 数据 治理 是 组 织 内 部 管理 好 和 使 用 好 大 数据 并 使 之 成 为 战略 资产 的 一 
个 规范 和 政策 的 集合 ,具体 内 容 包 括 维护 和 提高 数据 质量 、 数 据 资源 的 保值 和 增值 保护 
数据 的 安全 和 隐私 、 规 范 用 户 使 用 数据 的 行为 和 追 责 、 协 调 组 织 内 部 使 用 数据 资源 的 需 

下 面 我 们 通过 两 个 案例 来 理解 大 数据 治理 的 必要 性 。 

案例 一 : 美国 火星 气象 卫星 发 射 失败 。 发 射 太空 探测 器 需要 大 量 的 数据 ,如 果 这 
些 数据 的 可 靠 性 没有 保证 , 则 会 带 来 灾难 性 的 后 果 。1999 年 ,美国 国家 航空 航天 局 
CNASA) 发 射 了 一 颗 火 星 探测 气象 卫星 。 经 过 9 个 月 的 飞行 ,在 切换 进入 火星 轨道 之 
后 ,卫星 突然 意外 地 进入 了 比 预定 高 度 低 170 千 米 的 火星 轨道 ,最 终 这 颗 卫 星 因为 不 
能 承受 火星 低 纬度 大 气 的 强烈 摩 探 而 坠落 ,并 燃烧 列 尽 。 事 后 经 过 调查 ,事故 的 原因 
是 NASA 的 工程 师 在 设计 卫星 的 时 候 使 用 的 测量 单位 是 英制 单位 磅 ”, 而 不 是 NASA 
间 定 的 “牛顿 ”。 卫 星 发 射 前 工程 师 并 没有 检查 数据 ,从 而 未 发 现 这 个 错误 。 这 两 个 测 
量 单位 之 间 的 误差 最 终 使 卫星 的 轨道 高 度 计 算出 现 170 千 米 的 巨大 偏差 ,从 而 导致 卫 
星 发 射 失败 。 这 个 看 似 很 小 的 错误 导致 NASA 3. 28 亿美 元 的 损失 并 使 美国 的 太空 探 
索 推迟 了 数 年 。 

案例 二 : 自动 驾驶 汽车 识别 交通 标志 出 现 错误 。 以 深度 学 习 为 代表 的 新 一 代 人 工 智 
能 技术 在 自动 驾驶 汽车 上 获得 了 成 功 应 用 。 自 动 驾 驶 汽车 上 有 一 个 充当 驾驶 员 眼 睛 的 摄 
像 头 , 它 的 作用 是 探测 汽车 行驶 过 程 中 的 环境 变化 ,并 及 时 作出 反应 。 例 如 ,摄像 头发 现 
了 停车 标志 ,就 应 该 及 时 触发 制 动 使 汽车 停止 运行 。 这 需要 利用 大 量 不 同 的 交通 标志 图 
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像 数 据 和 深度 学 习 技 术 ,建立 一 个 交通 标志 识别 系统 ,使 摄像 头 能 够 自动 识别 交通 
如 图 10-1 所 示 。 

据 国外 研究 报道 ,目前 在 建立 交通 标志 识别 模型 的 时 候 , 都 没有 判断 交通 标志 图 像 数 
据 真 实 与 否 ,因此 黑客 能 够 通过 一 些 刻意 伪造 的 交通 标志 图 ,误导 识别 模型 ,导致 出 现 判 
断 错误 。 如 图 10-2 所 示 ,图 中 左边 是 一 个 正常 的 停止 标志 图 像 ,右边 是 黑客 刻意 伪造 的 
停止 标志 图 像 , 二 者 人 眼 几 乎 无 法 分 辨 ,但 是 黑客 可 以 利用 伪造 的 图 像 误 导 识别 系统 ,使 
它 把 停止 标志 识别 成 其 他 交通 标志 ,从 而 带 来 灾难 性 的 后 果 。 

从 上 述 两 个 案例 可 以 看 出 ,在 大 数据 时 代 , 如 果 无 法 保证 数据 质量 ,包括 正确 、 精 确 、 
真实 可靠 和 及 时 ,不 仅 不 能 充分 发 挥 大 数据 的 价值 ,而 且 会 带 来 严重 的 后 果 。 因 此 ,大 数 
据 治理 势 在 必 行 。 





图 10-1 自动 驾驶 车 辆 交通 标志 识别 示意 图 





图 10-2 正常 和 伪造 的 交通 标志 图 像 


10.2 大 数据 治理 的 概念 


大 数据 治理 的 概念 是 从 信息 系统 中 的 信息 治理 (information governance) 的 概念 发 展 
而 来 的 。 目 前 关于 信息 治理 没有 统一 的 定义 ,专家 从 不 同 的 角度 来 阐述 它 的 内 涵 。 维 基 
百科 把 信息 治理 定义 为 : 一 个 多 学 科 交 叉 的 组 织 结构 ,政策 .流程 和 控制 措施 的 集合 ,用 
来 管理 组 织 内 部 的 信息 资源 ,以 满足 组 织 当 前 和 未 来 在 法 律 法 规 `. 风险 控 制 . 环 境 和 操作 
方面 的 要 求 。 著 名 的 信息 咨询 公司 加 德 纳 公 司 把 信息 治理 定义 为 : 信息 治理 是 关于 信息 
的 决策 管理 和 责任 追究 的 规范 说 明 , 包 含 了 相关 的 过 程 、 角 色 ,标准 和 度量 ,用 以 规范 在 信 
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息 的 产生 存储、 使 用 存档、 删除 和 评价 中 的 有 关 行 为 ,以 帮助 组 织 在 实现 有 关 目 标的 过 
程 中 高 效 和 有 效 地 使 用 信息 。 

目前 ,大 数据 治理 还 是 一 个 血 新 的 领域 《大 数据 治理 》 一 书 的 作者 Soares 给 出 一 个 
比较 权威 的 定义 : 大 数据 治理 属于 广义 的 信息 治理 范畴 , 它 通 过 协调 组 织 内 部 不 同 部 门 
的 目标 ,制定 相关 政策 规范 ,以 满足 大 数据 优化 、 安 全 隐私 保护 和 和 僵 利 的 要 求 。Soares 的 
上 述 定义 短小 精 悍 ,包含 下 面 六 个 方面 的 含义 。 

1. 大 数据 治理 属于 广义 的 信息 治理 范畴 

组 织 机 构 应 该 拓展 当前 信息 治理 的 范畴 ,把 大 数据 的 内 容 也 考虑 在 内 ,如 聘用 大 数据 
的 管理 人 员 和 分 析 人 员 ,增加 对 大 数据 的 元 数据 、 主 数据 和 安全 隐私 保护 的 管理 等 。 

2. 大 数据 治理 要 制定 相关 的 政策 规范 

这 些 政策 规范 要 明确 规定 在 不 同 环境 下 如 何 使 用 大 数据 ,而 且 这 些 政策 规范 必须 符 
合 组 织 内 部 的 法 律 法 规 要 求 。 

3. 大 数据 的 优化 

大 数据 治理 要 帮助 组 织 在 如 下 方面 优化 和 提高 大 数据 的 质量 ,包括 : 建立 元 数据 , 方 
便 大 数据 的 管理 和 使 用 ;定期 清理 和 维护 大 数据 ,确保 数据 质量 ;实施 信息 生命 周期 管理 ， 
及 时 清理 不 需要 的 数据 信息 。 

4. 大 数据 的 安全 和 隐私 保护 

大 数据 治理 要 帮助 组 织 建立 保护 数据 安全 和 隐私 的 政策 措施 ,如 保护 数据 不 被 非法 
访问 ,数据 不 会 泄露 隐私 以 及 数据 不 会 被 非法 修改 和 破坏 等 。 

5. 大 数据 要 能 够 盈利 

大 数据 治理 要 帮助 组 织 实现 通 过 大 数据 来 盈利 ,包括 把 数据 出 售 给 第 三 方 列 利 或 者 
利用 大 数据 开发 新 的 增值 服务 。 

6. 协调 组 织 内 部 不 同 部 门 之 间 的 目标 

组 织 内 部 各 个 部 门 之 间 对 如 何 使 用 数据 的 规定 和 要 求 可 能 不 一 样 ,甚至 会 出 现 冲突 
的 情况 。 大 数据 治理 要 能 够 协调 和 统一 这 些 规 定 和 要 求 。 

有 的 文献 中 经 常 出 现 如 下 三 个 容易 混淆 的 术语 : IT 治理 (IT governance) 信息 治理 
和 大 数据 治理 ,这 是 三 个 相互 联系 又 相互 区 别 的 概念 。 

T 治理 是 公司 治理 的 一 个 部 分 ,关注 组 织 内 部 信息 系统 的 建设 .开发 .运行 ,性 能 和 
风险 管理 。 它 的 目的 是 保证 信息 系统 的 运行 满足 高 效 、 有 效 .安全 和 经 济 的 目标 。IT 治 
理 的 对 象 除了 包括 信息 系统 软件 和 硬件 的 采购 、 开 发 .运行 和 维护 ,还 包括 其 中 的 信息 管 
理 。 因 此 ,IT 治理 包含 信息 治理 和 大 数据 治理 ;信息 治理 是 从 IT 治理 分 离 出 来 的 一 个 分 
支 。 随 着 组 织 内 部 信息 的 不 断 增加 ,信息 的 重要 性 日 益 凸 显 , 于 是 出 现 了 信息 治理 的 有 关 
政策 .流程 和 方法 来 对 这 些 信息 进行 管理 和 监控 。 信 息 治理 专注 于 维护 信息 质量 ,提高 信 
息 使 用 的 价值 并 降低 使 用 信息 的 风险 ,信息 治理 包括 元 数据 管理 、 主 数据 管理 .数据 质量 
管理 ,信息 生命 周期 管理 \ 隐 私人 保护、 风险 管理 等 ;大 数据 治理 是 信息 治理 在 大 数据 时 代 的 
拓展 ,除了 包含 传统 信息 治理 的 以 上 内 容 , 大 数据 治理 还 需要 考虑 大 数据 的 一 些 特点 , 包 
括 数 据 量 大 、 结 构 千 差 万 别 、 价 值 密度 低 .数据 动态 变化 .数据 来 源 广泛 .相关 性 分 析 比 重 
大 等 。 另 外 ,大 数据 治理 还 增加 了 一 些 特色 内 容 , 如 使 用 大 数据 的 行为 规范 和 追 责 .大 数 
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据 优化 、 大 数据 的 安全 和 隐私 保护 、 大 数据 保值 增值 以 及 协调 不 同 部 门 之 间 使 用 与 管理 大 
数据 的 目标 和 需求 。 


10.3 大 数据 治理 的 核心 内 容 
在 实施 大 数据 治理 的 过 程 中 ,首先 要 明确 什么 是 大 数据 治理 所 覆盖 的 内 容 , 这 样 才 能 


有 的 放 矢 地 制定 相关 的 政策 和 措施 。 目 前 大 数据 治理 处 于 发 展 阶 段 , 还 没有 正式 的 标准 
指南 和 细致 入 微 的 政策 、 方 法 和 措施 。《 大 数据 治理 ) 一 书 的 作者 Soares 在 其 著作 中 给 出 


了 大 数据 治理 的 一 个 参考 指南 ,提出 大 数据 治理 应 覆盖 的 八 个 方面 ,如 表 10-1 所 示 。 
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兴 个 方面 


表 10-1 大 数据 治理 应 覆盖 的 八 个 方面 


含 六 





大 数据 治理 应 该 关注 企业 在 原 有 的 组 织 结构 和 工作 职责 方面 是 否 把 大 数据 
纳入 考虑 范围 ,如 是 否 配 备 专门 的 人 员 来 承担 相应 的 工作 、 是 否 有 大 数据 的 
立 急 管理 措施 等 





元 数据 是 描述 大 数据 的 数据 ,主要 用 来 描述 大 数据 的 特征 属性 。 通 过 元 数 
据 可 以 对 大 数据 资源 进行 有 效 的 组 织 和 管理 ,如 查找 和 定位 大 数据 资源 、 记 
录 和 追踪 大 数据 在 使 用 过 程 中 的 变化 等 。 大 数据 治理 应 该 考察 企业 内 部 的 
元 数据 的 管理 措施 是 否 到 位 ,如 元 数据 是 否 完整 .元 数据 是 否 及 时 更 新 、 元 
数据 之 间 是 否 存 在 歧义 等 





安全 和 隐私 保护 


大 数据 治理 要 考察 企业 内 部 对 大 数据 安全 和 隐私 保护 的 政策 及 措施 是 否 到 
位 ,如 是 否 分 类 识别 出 敏感 数据 、 数 据 是 否 加 密 保护 、 是 否 防 止 非法 访问 、 是 
否 防 止 数 据 被 非法 修改 和 删除 等 





数据 质量 管理 


大 数据 的 价值 在 很 大 程度 上 取决 于 数据 的 质量 。 大 数据 治理 要 考察 企业 内 
部 维护 数据 质量 的 政策 和 措施 ,包括 数据 质量 的 度量 标准 、 维 护 数据 质量 的 
政策 和 方法 、 验 证 数据 真实 性 和 完整 性 的 技术 和 措施 等 





主 数据 管理 


主 数据 可 以 理解 为 企业 内 部 为 完成 一 个 决策 所 采用 的 全 部 数据 资源 的 统 
称 。 主 数据 可 以 是 一 个 文件 ,也 可 以 是 分 布 在 不 同 区 域 的 不 同类 型 的 数据 。 
主 数 据 可 以 是 关系 数据 库 数据 或 文本 ,也 可 以 是 声音 .图 像 和 视频 。 大 数据 
治理 要 关注 如 下 内 容 : 数据 分 析 方 法 是 否 能 获得 准确 的 结果 ,分 析 过 程 是 否 
高 效 ,所 采用 的 主 数据 在 内 容 方面 是 否 完整 (特别 对 于 分 布 在 不 同 区 域 的 数 
据 ) ,在 时 间 方 面 是 否 为 最 新 数据 ,不 同 格式 的 数据 如 何 转换 成 一 致 的 数据 
格式 ;不 同 的 数据 之 间 如 何 消除 元 余 和 歧义 等 





数据 生命 周期 的 管理 


大 数据 治理 应 该 关注 数据 生命 周期 的 管理 政策 和 措施 ,包括 是 否 记 录 大 数 
据 的 来 源 和 流动 过 程 、 如 何 识别 有 价值 的 数据 并 加 以 应 用 、 如 何 及 时 删除 或 
存档 不 青 需要 的 数据 以 减少 维护 成 本 等 





大 数据 的 一 利 和 增值 


大 数据 治理 要 关注 企业 如 何 通 过 大 数据 来 实现 鳃 利 的 政策 和 措施 ,包括 把 
数据 出 售 给 第 三 方 以 获取 权利 或 者 利用 大 数据 开发 新 的 增值 服务 





协调 不 同 目标 和 需求 





大 数据 治理 要 关注 当 不 同 企业 之 间 以 及 企业 内 部 各 个 部 门 之 间 使 用 数据 的 
规定 和 要 求 不 一 致 或 者 出 现 冲突 的 时 候 , 如 何 处 理 这 种 不 一 致 和 冲突 的 情 
况 , 包 括 是 否 存在 隐私 泄露 .是 否 存在 法 律 风险 等 


在 实际 使 用 过 程 中 ,还 需要 进一步 细 化 上 述 八 个 方面 的 内 容 , 明 确 具 体 的 治理 目标 和 
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策略 ,这 需要 同时 考虑 三 个 方面 的 因素 ,分别 是 大 数据 应 用 的 行业 或 部 门 、 大 数据 的 类 型 
以 及 信息 治理 的 核心 内 容 。 这 构成 了 大 数据 治理 的 框架 ,如 图 10-3 所 示 。 它 们 的 含义 
如 下 。 

1. 大 数据 应 用 的 行业 或 部 门 

大 数据 治理 是 与 大 数据 应 用 的 行业 或 部 门 相 关 的 ,不 同行 业 或 部 门 的 大 数据 应 用 不 
一 样 , 相 应 的 大 数据 治理 的 策略 和 内 容 可 能 也 不 一 样 。 例 如 ,对 于 人 类 基因 数据 ,管理 基 
因数 据 库 的 部 门 可 能 更 加 关注 基因 数据 的 隐私 保护 ,而 使 用 基因 信息 来 研制 药物 的 机 构 
可 能 更 关心 基因 数据 是 否 真 实 和 完备 。 

2. 大 数据 的 类 型 

大 数据 的 类 型 分 为 Web 和 社交 数据 ,传感器 数据 (如 RFID 或 GPS 数据 )、 生 物 特征 
数据 (如 指纹 或 DNA) 交易 数据 (如 电子 商务 交易 记录 或 者 银行 消费 记录 ) 以 及 个 人 创建 
的 数据 (如 电子 邮件 、 办 公文 档 、 调 查 报告 )。 不 同类 型 的 大 数据 对 治理 的 目标 和 策略 不 
一 样 。 

3. 信息 治理 的 核心 内 容 

信息 治理 的 核心 内 容 包 括 组 织 管理 .元 数据 管理 .安全 和 隐私 保护 .数据 质量 管理 、 主 
数据 管理 .信息 生命 周期 的 管理 ,它们 的 含义 如 表 10-1 所 示 。 不 难 理解 ,针对 不 同行 业 或 
不 同 的 大 数据 类 型 ,信息 治理 的 核心 内 容 可 能 不 一 样 。 





大 数据 类 型 





图 10-3 大 数据 治理 的 框架 


10.4 案例 


在 大 数据 治理 中 ,数据 质量 管理 是 一 个 非常 重要 的 内 容 。 数 据 质量 对 于 大 数据 分 析 
的 结果 至 关 重 要 ,只 有 在 数据 是 正确 的 、 完 整 的 真实 的 前 提 下 ,大 数据 分 析 方 法 才能 充分 
挖掘 其 中 隐藏 的 知识 ,发 挥 大 数据 应 有 的 价值 ,否则 大 数据 分 析 的 质量 会 下 降 甚 至 给 出 错 
误 的 分 析 结 论 。 下 面 通过 一 个 IT 审计 工作 的 案例 来 简要 介绍 数据 采集 过 程 的 质量 控制 
方法 ,虽然 其 中 使 用 的 数据 是 Oracle 数据 库 系统 中 的 结构 化 数据 ,但 是 其 思想 对 大 数据 
也 是 适用 的 。 
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10.4.1 工作 思路 


在 审计 工作 中 ,审计 人 员 需 要 从 被 审计 单位 采集 数据 。 为 了 保证 后 续 审 计 分 析 结 果 
的 准确 性 和 客观 性 ,审计 人 员 必 须 对 所 采集 数据 的 真实 性 和 完整 性 进行 验证 。 其 中 真实 
性 验证 是 保证 数据 未 经 过 被 审计 单位 的 人 为 改动 , 尽 可 能 地 判断 出 有 无 蓄意 对 数据 进行 
增加 、 删 除 、 算 改 内 容 ; 完 整 性 验证 是 保证 所 采集 到 的 数据 是 完整 的 ,被 审计 单位 没有 隐瞒 
或 者 屏蔽 数据 等 情况 。 

在 发 出 数据 需求 说 明 书 后 ,一般 应 当 在 审计 人 员 的 监督 下 ,由 被 审计 单位 技术 人 员 完 
成 实际 的 数据 采集 工作 。 在 实施 采集 之 前 ,审计 人 员 应 该 首先 对 被 采集 数据 的 真实 性 和 
完整 性 的 验证 工作 做 好 准备 ,然后 再 进行 数据 采集 。 

由 于 被 审计 单位 使 用 的 数据 库 管理 系统 不 尽 相 同 , 验 证 数据 真实 性 和 完整 性 的 方法 
也 有 所 不 同 。 在 验证 的 过 程 中 ,审计 项 目 组 应 该 采用 多 种 技术 方法 ,从 多 个 角度 对 数据 进 
行 验证 。 验 证 的 角度 可 以 是 纯 技 术 性 的 、 纯 业务 性 的 或 者 技术 与 业务 相 结合 的 。 数 据 验 
证 可 以 在 数据 采集 的 同时 或 数据 采集 之 后 进行 。 从 技术 的 角度 出 发 ,一 般 在 数据 采集 的 
同时 进行 数据 验证 ,下 面 将 举例 说 明 。 一 般 而 言 , 在 进行 了 技术 性 验证 后 ,往往 需要 从 数 
据 的 经 济 含义 出 发 进行 验证 ,如 经 济 总 量 、 分 量 的 核对 , 钓 稽 关系 、 借 贷 平衡 等 方面 的 
验证 。 

在 某 些 情况 下 ,由 于 不 能 接触 被 审计 单位 的 生产 机 系统 ,或 由 于 数据 是 从 备份 介质 中 
通过 应 用 系统 恢复 ,再 导出 为 文本 文件 提供 ,难以 在 采集 的 同时 直接 对 数据 进行 验证 。 在 
审计 金融 企业 时 ,通常 都 会 遇 到 这 种 情况 。 此 时 ,就 必须 通过 利用 电子 数据 计算 有 关 金 
额 ,与 现 有 的 纸 质 资料 ,如 有 关 财 务 报表 日 常 统计 表 的 相应 金额 比 对 ,如 有 差异 , 则 应 进 
行 分 析 , 找 出 产生 差异 的 原因 。 有 时 候 金额 有 差异 ,并 不 表明 数据 一 定 不 真实 ,还 应 进 一 
步 分 析 产 生 差异 的 原因 。 例 如 ,如 果 获 取 了 某 银行 明细 账户 的 数据 , 则 可 以 统计 出 年 末 总 
账 余额 ,将 统计 出 的 数据 与 该 行 年 末 业 务 状况 表 的 相应 总 账 科目 余额 相 比 较 , 如 通过 电子 
明细 账 统计 出 的 总 账 科 目 余额 小 于 业务 状况 表 的 金额 ,不 能 立即 得 出 数据 不 完整 的 结论 ， 
因为 可 能 存在 有 部 分 业务 未 上 机 ,还 是 手工 处 理 的 情况 。 


10.4.2 数据 真实 性 的 验证 方法 


1. 验证 数据 库 的 创建 日 期 

由 审计 人 员 和 被 审计 单位 的 技术 人 员 一 起 ,由 审计 人 员 监 督 .被 审计 单位 技术 人 员 执 
行 ,在 被 审计 单位 的 Oracle 数据 库 管 理 系 统 中 ,在 SQL" PLUS 工具 中 输入 如 下 命令 可 以 
查看 当前 连接 的 数据 库 的 创建 日 期 。 


Select Created Fraom VS Database; 


结果 如 图 10-4 所 示 。 
在 得 到 了 被 审计 单位 的 表 空 间 后 ,审计 人 员 可 以 进一步 了 解 表 空间 的 物理 存储 位 置 
和 所 占 的 空间 大 小 ,这 可 以 通过 下 述 语句 实现 : 


select tablespace name 表 空 间 ， file name 物理 文件 名 ， 
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10.4.1 工作 思路 


在 审计 工作 中 ,审计 人 员 需 要 从 被 审计 单位 采集 数据 。 为 了 保证 后 续 审 计 分 析 结 果 
的 准确 性 和 客观 性 ,审计 人 员 必 须 对 所 采集 数据 的 真实 性 和 完整 性 进行 验证 。 其 中 真实 
性 验证 是 保证 数据 未 经 过 被 审计 单位 的 人 为 改动 , 尽 可 能 地 判断 出 有 无 蓄意 对 数据 进行 
增加 、 删 除 、 算 改 内 容 ; 完 整 性 验证 是 保证 所 采集 到 的 数据 是 完整 的 ,被 审计 单位 没有 隐瞒 
或 者 屏蔽 数据 等 情况 。 

在 发 出 数据 需求 说 明 书 后 ,一般 应 当 在 审计 人 员 的 监督 下 ,由 被 审计 单位 技术 人 员 完 
成 实际 的 数据 采集 工作 。 在 实施 采集 之 前 ,审计 人 员 应 该 首先 对 被 采集 数据 的 真实 性 和 
完整 性 的 验证 工作 做 好 准备 ,然后 再 进行 数据 采集 。 

由 于 被 审计 单位 使 用 的 数据 库 管理 系统 不 尽 相 同 , 验 证 数据 真实 性 和 完整 性 的 方法 
也 有 所 不 同 。 在 验证 的 过 程 中 ,审计 项 目 组 应 该 采用 多 种 技术 方法 ,从 多 个 角度 对 数据 进 
行 验证 。 验 证 的 角度 可 以 是 纯 技 术 性 的 、 纯 业务 性 的 或 者 技术 与 业务 相 结合 的 。 数 据 验 
证 可 以 在 数据 采集 的 同时 或 数据 采集 之 后 进行 。 从 技术 的 角度 出 发 ,一 般 在 数据 采集 的 
同时 进行 数据 验证 ,下 面 将 举例 说 明 。 一 般 而 言 , 在 进行 了 技术 性 验证 后 ,往往 需要 从 数 
据 的 经 济 含义 出 发 进行 验证 ,如 经 济 总 量 、 分 量 的 核对 , 钓 稽 关系 、 借 贷 平衡 等 方面 的 
验证 。 

在 某 些 情况 下 ,由 于 不 能 接触 被 审计 单位 的 生产 机 系统 ,或 由 于 数据 是 从 备份 介质 中 
通过 应 用 系统 恢复 ,再 导出 为 文本 文件 提供 ,难以 在 采集 的 同时 直接 对 数据 进行 验证 。 在 
审计 金融 企业 时 ,通常 都 会 遇 到 这 种 情况 。 此 时 ,就 必须 通过 利用 电子 数据 计算 有 关 金 
额 ,与 现 有 的 纸 质 资料 ,如 有 关 财 务 报表 日 常 统计 表 的 相应 金额 比 对 ,如 有 差异 , 则 应 进 
行 分 析 , 找 出 产生 差异 的 原因 。 有 时 候 金额 有 差异 ,并 不 表明 数据 一 定 不 真实 ,还 应 进 一 
步 分 析 产 生 差异 的 原因 。 例 如 ,如 果 获 取 了 某 银行 明细 账户 的 数据 , 则 可 以 统计 出 年 末 总 
账 余额 ,将 统计 出 的 数据 与 该 行 年 末 业 务 状况 表 的 相应 总 账 科目 余额 相 比 较 , 如 通过 电子 
明细 账 统计 出 的 总 账 科 目 余额 小 于 业务 状况 表 的 金额 ,不 能 立即 得 出 数据 不 完整 的 结论 ， 
因为 可 能 存在 有 部 分 业务 未 上 机 ,还 是 手工 处 理 的 情况 。 


10.4.2 数据 真实 性 的 验证 方法 


1. 验证 数据 库 的 创建 日 期 

由 审计 人 员 和 被 审计 单位 的 技术 人 员 一 起 ,由 审计 人 员 监 督 .被 审计 单位 技术 人 员 执 
行 ,在 被 审计 单位 的 Oracle 数据 库 管 理 系 统 中 ,在 SQL" PLUS 工具 中 输入 如 下 命令 可 以 
查看 当前 连接 的 数据 库 的 创建 日 期 。 


Select Created Fraom VS Database; 


结果 如 图 10-4 所 示 。 
在 得 到 了 被 审计 单位 的 表 空 间 后 ,审计 人 员 可 以 进一步 了 解 表 空间 的 物理 存储 位 置 
和 所 占 的 空间 大 小 ,这 可 以 通过 下 述 语句 实现 : 


select tablespace name 表 空 间 ， file name 物理 文件 名 ， 
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\WINNT\system32\cmd.exe - sqlplus 


SQL> select created from VS$database; 





图 10-4 查看 数据 库 的 创建 日 期 


bytes 字 节 数 from dba data files; 
结果 如 图 10-5 所 示 。 


‘WINNT'\system32"\cmd.ene - sqlplus 


存储 位 置 


“ORADATANSYSDBNSYX 
0 ~、 





图 10-5 查看 表 空 间 的 物理 文件 和 大 小 

如 果 希 望 将 查询 结果 保存 到 文本 文件 中 ,可 以 在 SQL* PLUS 中 执行 如 下 命令 : 

spool e:\tablespace.txt 

select tablespace name 表 空 间 , file name 物理 文件 名 ， 

bytes 字 节 数 from dpa data files; 

spool off 

此 例 是 将 查询 结果 以 文本 方式 保存 到 e: \ tablespace. txt 文件 中 ,执行 完 此 命令 后 ， 
审计 人 员 就 可 以 用 记事 本 打开 e: \ tablespace. txt, 查 看 其 内 容 。 

如 果 表 空间 的 大 小 与 审计 人 员 预 期 的 大 小 相差 比较 大 , 则 可 以 对 此 表 空 间 中 的 数据 
的 真实 性 提出 质疑 。 
审计 人 员 还 可 以 通过 执行 下 述 语句 ,得 到 当前 连接 用 户 的 全 部 表 和 表 所 在 的 表 空 间 : 














SELECT TABLE. NAME, TABLESPACE NAME. FROM USER TABLES 
ORDER BY TABLE NANMP 


执行 结果 如 图 10-6 所 示 。 
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INNT\system32\cmd.exe - sqlplus 


e from u 


PACE_NAME 








图 10-6 查看 当前 连接 用 户 的 全 部 表 和 所 在 的 表 空 间 


2. 验证 两 个 数据 库 的 结构 的 差异 

在 Oracle 中 验证 两 个 数据 库 的 结构 的 差异 可 以 通过 分 别 比较 两 个 数据 库 中 相似 表 
的 结构 实现 。 

示例 : 验证 PUTJYM 和 PUTJ 表 结 构 的 差异 ,可 以 使 用 如 下 方法 。 

(1) 首先 用 下 述 语句 得 到 PUTJYM 表 的 结构 ,并 将 结果 保存 在 d: 盘 根 目录 下 的 
PUTJYM. txt 文件 中 。 


sql> spool d:\PUTJYM.txt 
sql> gesc PUTJYM; 
sql> spool off; 


(2) 然后 用 下 述 语 句 得 到 PUTJ 表 的 结构 ,并 将 结果 保存 在 d: 盘 根 目 录 下 的 
PUTJ. txt 文件 中 。 
sql> spool c:\PUTJ.txt 


sql> gesc PUTJ; 
sql> spool off; 


(3) 最 后 用 记事 本 打开 两 个 文件 ,对 其 中 的 内 容 进行 比较 ,以 查看 两 个 表 的 结构 的 





泪 
类 


3. 验证 数据 表 是 基本 表 还 是 视图 
审计 人 员 在 确定 好 了 需要 的 数据 所 在 的 表 之 后 ,在 导出 表 中 数据 之 前 ,应 先 在 被 审计 
单位 的 数据 库 服务 器 上 判断 被 审计 单位 提供 的 数据 表 是 基本 表 还 是 视图 ,并 且 当 数据 表 
是 基本 表 时 ,审计 人 员 还 应 该 验证 这 些 表 的 创建 日 期 。 

示例 : 列 出 某 数据 库 中 的 全 部 基本 表 。 

首先 连接 到 要 查看 的 数据 库 表 空 间 , 然 后 在 SQL PLUS 中 执行 下 述 语句 : 














select table name from user tables; 

结果 如 图 10-7 所 示 。 

若 要 将 结果 保存 到 一 个 文本 文件 中 ,执行 如 下 语句 : 
。 184。 
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sql> spool c:\tab name.txt 
Sql> select table name from user tables; 
sql> spool off; 


NNT\system32\cmd.exe - sqlplus syxd adma/ 123 


select table_name from user_ta 











图 10-7 列 出 数据 库 中 的 全 部 基本 表 


如 果 被 审计 单位 提供 的 表 不 在 这 个 范围 内 , 则 说 明 他 们 提供 的 有 可 能 是 视图 ,审计 人 
员 可 以 进一步 执行 下 述 命令 验证 被 审计 单位 提供 的 对 象 是 否 视图 。 
示例 : 列 出 数据 库 中 的 全 部 视图 。 

















SELECT VIEW _ NAME FROM US R_ VIEWS; 
执行 结果 与 图 10-8 所 示 类 似 。 


\WINNT\system32\cmd.exe - sqlplus 


select uiew_name from user_views; 





图 10-8 查看 全 部 视图 


如 果 被 审计 单位 提供 的 对 象 是 基本 表 , 则 应 该 进一步 验证 这 些 基 本 表 的 创建 日 期 ,以 
此 判断 被 审计 单位 提供 的 数据 表 是 否 新 近 创 建 的 表 。 
示例 : 列 出 数据 库 中 全 部 基本 表 和 视图 的 创建 日 期 。 








Select object name,object type,created from user abjects 


结果 与 图 10-9 所 示 类 似 。 

也 可 以 将 查询 结果 保存 到 文本 文件 中 。 

示例 : 列 出 数据 库 中 全 部 基本 表 和 视图 的 创建 日 期 ,并 将 结果 保存 到 d: 盘 根 目录 下 
的 info. txt 文件 中 。 





Spool d:\info.txt 
“ 485: < 
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‘WINNT\system32\cmd.exe = sqlplus E 


> ,object_type,. sd fron user_ objects; 


PUTJYM 
TARBLE 


OBJECT_NAME 





图 10-9 列 出 数据 库 中 全 部 表 和 视图 的 创建 日 期 


select opject name, dbject type,created from user cbjects; 

spool off 

如 果 被 审计 单位 的 数据 库 中 的 表 或 视图 比较 多 ,在 利用 上 述 语 句 查 找 某 数据 表 是 否 
数据 库 中 的 基本 表 或 视图 时 就 会 比较 麻烦 ,这 时 我 们 可 以 直接 对 被 审计 单位 提供 的 数据 
表 对 象 的 类 型 和 创建 日 期 进行 验证 。 

示例 : 验证 “保证 合同 表 ” 的 类 型 和 创建 日 期 。 





Select object. name,object type,created from user abjects 
Where object name =" 保证 合同 表 ?”; 


结果 如 图 10-10 所 示 。 
F:\WINNT\system32\cmd.exe - sqlplus 


ject_name -object_type-created from user_objects where object_nane 


13-5 月 -84 





图 10-10 保证 合同 表 的 创建 日 期 


10.4.3 数据 完整 性 的 验证 


在 得 到 了 要 审计 的 数据 所 在 的 表 之 后 ,审计 人 员 可 以 进一步 查看 表 中 的 记录 数 ,将 得 
到 的 记录 数 与 审计 人 员 估 算 的 记录 数 进 行 比较 ,以 验证 表 数 据 的 完整 性 。 
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在 SQL* PLUS 中 输入 : 
select count (* ) from 表 名 ; 


可 以 得 到 指定 表 的 记录 数 。 
示例 : 查看 “保证 合同 表 ” 所 包含 的 记录 数 。 


select count (* ) from 保 证 合同 表 ; 


执行 结果 与 图 10-11 所 示 类 似 。 


cv F:\WINNT'\'system32\cmd.exe - sqlplus 


select count Cx*》 from 1 不 让 


COUNT Cx> 


?7587 








图 10-11 得 到 保证 合同 表 的 记录 数 
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附录 A Tableau 10.0 简介 


A.1 Tableau 工作 区 


在 首次 进入 Tableau 或 打开 Tableau 但 没有 指定 工作 短 时 ,会 显示 初始 界面 ,如 
图 A-1l 所 示 。 





示例 工作 第 
mo 
中 国 分 析 世界 指标 


图 A-1 Tableau 的 初始 界面 








初始 界面 的 左边 是 “连接 ? 窗 格 ,在 此 可 以 选择 连接 任何 所 需要 的 数据 源 。 右 边 列 出 
了 最 近 使 用 的 工作 短 、 已 保存 的 数据 连接 .示例 工作 短 等 。 
Tableau 工作 区 是 制作 视图 .设计 仪表 板 .生成 故事 发 布 和 共享 工作 短 的 工作 环境 ， 
包括 工作 表 工 作 区 .仪表 板 工 作 区 和 故事 工作 区 ,也 包括 公共 菜单 栏 和 工具 栏 。 
。 工作 表 (work sheet) : 又 称 视图 (visualization) ,是 可 视 化 分 析 的 最 基本 单元 。 
。 仪表 板 (dashboard) : 是 多 个 工作 簿 和 一 些 对 象 ( 如 图 像 、 文 本 、 网 页 等 ) 的 组 合 , 可 
以 按照 一 定 方式 对 其 进行 组 织 和 布局 ,用 于 揭示 数据 关系 和 内 涵 。 
。 故事 (story): 是 按 顺 序 排列 的 工作 表 或 仪表 板 的 集合 ,故事 中 各 个 单独 的 工作 表 
或 仪表 板 称 为 “故事 点 ”>。 可 以 用 故事 向 用 户 叙 述 某 些 事实 ,或 者 以 故事 方式 展示 
各 事实 之 间 的 上 下 文 或 事件 发 展 关系 。 
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A.1.1 工作 表 工 作 区 


在 Tableau 连接 好 数据 源 之 后 , 即 进入 工作 表 工 作 区 ,工作 表 工 作 区 如 图 A-2 所 示 。 
该 工作 区 包含 的 主要 部 件 如 下 。 

(1) 数据 窗口 。 数 据 窗 口 位 于 工作 表 工 作 区 的 左 侧 , 图 A-2 中 最 左边 的 框框 出 的 部 
分 即 为 数据 窗口 。 数 据 窗口 包含 “数据 ”和 “分 析 ” 两 个 选项 卡 。 

“数据 ”选项 卡 中 包含 以 下 三 部 分 内 容 。 

。 数据 源 显示 框 : 包含 当期 使 用 的 数据 源 及 其 他 可 用 的 数据 源 。 

。 维度 列表 框 ; 包含 数据 源 中 文本 .日 期 等 离散 型 数据 的 字段 。 

。 度量 列表 框 : 包含 可 用 于 聚合 的 连续 数据 的 字段 。 


页 面 卡 和 选 器 卡 行 、 纪 功能 区 


数据 源 
显 水 框 

















维度 
列表 框 


度量 
列表 权 
































标记 卡 纵 轴 分 析 视 多 
图 A-2 工作 表 工 作 区 


“分 析 ” 选 项 卡 的 样式 如 图 A-3 所 示 。 分 析 窗 格 包含 菜单 中 常用 的 分 析 功 能 ,便于 快 
速 使 用 。“ 分 析 ” 窗 格 中 主要 包含 如 下 几 部 分 内 容 。 
。 汇总: 提供 常用 的 参考 线 (常量 线 ) 、 平 均线 、 含 四 分 位 的 中 值 、 盒 须 图 和 合计 等 ， 
可 直接 将 这 些 拖 放 到 视图 中 应 用 。 
。 模型. 提供 常用 的 分 析 模 型 ,包括 含 95% CI 的 平均 值 .95% CI 的 中 值 . 趋 势 线 、 
预测 和 群集 。 
。 自 定义 : 提供 参考 线 、 参 考区 间 、 分 布 区 间 和 盒 须 图 的 快捷 使 用 。 
数据 窗口 的 右边 按 从 上 到 下 有 三 个 卡 ,分 别 是 页 面 卡 、 筛 选 器 卡 和 标记 卡 。 
(2) 页 面 卡 : 可 在 此 功能 区 中 基于 某 个 维度 的 成 员 或 某 个 度量 的 值 将 一 个 视图 拆 分 
为 多 个 视图 。 
(3) 筛选 器 卡 : 用 于 指定 要 包含 和 排除 的 数据 ,所 有 经 过 筛选 的 字段 都 显示 在 筛选 


器 卡 上 。 
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(4) 标记 卡 : 控制 视图 中 的 标记 的 属性 ,包括 一 个 标记 类 型 选择 器 ,可 以 在 其 中 指定 
标记 类 型 ,如 条 形 图 、 线 、 圆 等 ,此 外 还 包含 颜色 、 大 小 .标签 文本、 详细 信息 .工具 提示 等 。 

(5) 行 、 列 功能 区 : 行 功能 区 用 于 创建 行 , 列 功能 区 用 于 创建 列 , 可 以 将 任意 数量 的 
字段 放置 在 这 两 个 功能 区 中 。 

(6) 智能 显示 : 智能 显示 包含 的 内 容 如 图 A-4 所 示 。 通 过 智能 显示 ,可 以 基于 视图 
中 已 经 使 用 的 字段 以 及 数据 窗口 中 选择 的 任意 字段 来 创建 视图 。Tableau 会 自动 评估 选 
定 的 字段 ,然后 在 智能 显示 中 突出 显示 与 数据 最 相符 的 可 视 化 图 表 类 型 。 

(7) 工作 表 视 图 区 : 创建 和 显示 视图 的 区 域 ,一 个 视图 就 是 行 和 列 的 集合 ,包括 的 组 
件 有 标题 ` 轴 、 区 .单元 格 和 标记 。 此 外 ,还 可 以 选择 显示 标题 .说 明 、 字 段 标签 .摘要 和 图 
例 等 。 





























起 含 95% CI 的 平均 值 
起 含 95% CI 的 中 值 
器 
[a 
自 定义 
吕 参考 区 间 0 个 或 多 个 欠 
加 
名 a i112 个 EB 
图 A-3 “分 析 ” 选 项 卡 图 A-4 “智能 显示 ”选项 卡 


A.1.2 仪表 板 工作 区 


仪表 板 工作 区 使 用 布局 容器 把 工作 表 和 诸如 图 片 文本 、 网 页 类 型 的 一 些 对 象 按 一 定 
的 布局 方式 组 织 在 一 起 。 在 工作 区 页 面 单 击 新 建 仪表 板 图 标 妨 ,或 者 选择 “仪表 板 ” 菜 单 
下 的 “新 建 仪表 板 ”, 即 可 打开 仪表 板 工作 区 ,如 图 A-5 所 示 。 

仪表 板 包 含 的 主要 部 件 如 下 ( 按 从 左 到 右 ,从 上 到 下 的 顺序 介绍 )。 

(1) 仪表 板 窗 格 : 列 出 了 当期 工作 德 中 创建 的 所 有 工作 德 ,可 以 选中 工作 表 并 将 其 
从 仪表 板 窗 格 拖 放 到 右 侧 的 仪表 板 区 域 中 。 仪 表 板 区 域 中 的 灰色 区 域 将 指示 出 该 工作 表 
可 放置 的 位 置 。 

(2) 仪表 板 对 象 窗 格 : 包含 仪表 板 支 持 的 对 象 ,如 文本 、 图 形 、 网 页 和 空白 区 域 。 从 
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图 A-5 仪表 板 工作 区 


仪表 板 窗 格 拖 放 所 需 对 象 至 仪表 板 窗 格 中 ,可 以 添加 仪表 板 对 象 。 

(3) 平 铺 和 浮动 : 决定 了 工作 表 和 对 象 被 拖 放 到 仪表 板 后 的 效果 和 布局 方式 。 默 认 
情况 下 ,仪表 板 使 用 平 铺 布 局 ,这 意味 着 每 个 工作 表 和 对 象 都 排列 在 一 个 分 层 网 格 中 。 可 
以 将 布局 改 为 “浮动 ”以 允许 视图 和 对 象 重 释 。 

(4) 布局 窗 格 : 以 树 形 结构 显示 当前 仪表 板 中 用 到 的 所 有 工作 表 集 对 象 的 布局 
让 式 3 

(5) 仪表 板 设 置 窗 格 : 设置 创建 的 仪表 板 的 大 小 ,也 可 以 设置 是 否 显 示 仪 表 板 标题 。 
仪表 板 的 大 小 可 以 从 预定 义 的 大 小 中 选择 一 个 ,或 以 像素 为 单位 设置 自 定义 大 小 。 

(6) 仪表 板 视 图 区 : 是 创建 和 调整 仪表 板 的 工作 区 域 , 可 以 添加 工作 及 各 类 对 象 。 


A.1.3 故事 工作 区 


故事 是 Tableau 8. 2 之 后 新 增加 的 图 形 ,一 般 将 故事 用 在 演示 工具 , 按 顺序 排列 视图 
或 仪表 板 。 在 工作 区 页 面 单 击 新 建 故 事 图 标 胃 ,或 者 选择 “故事 ”菜单 下 的 “新 建 故事 ”， 
即 可 打开 故事 工作 区 ,如 图 A-6 所 示 。 

故事 工作 区 包含 的 主要 部 件 如 下 ( 按 从 左 到 右 , 从 上 到 下 的 顺序 介绍 )。 

(1) 仪表 板 和 工作 表 窗 格 : 列 出 在 当期 工作 短 中 创建 的 工作 表 和 仪表 板 , 将 其 中 一 
个 工作 表 或 仪表 板 拖 放 到 故事 区 域 , 即 可 创建 故事 点 。 

(2) 说 明 : 说 明 是 可 以 添加 到 故事 点 中 的 一 种 特殊 类 型 的 注释 。 若 要 连接 说 明 , 只 
需 双 击 此 处 。 可 以 向 一 个 故事 点 添加 多 个 说 明 , 可 以 将 说 明 放 置 到 故事 中 的 任何 合适 的 
位 置 。 

(3) 导航 器 设置 : 设置 是 否 显示 导航 框 中 的 后 退 /前 进 按钮 。 

(4) 故事 设置 窗 格 : 设置 创建 的 故事 的 大 小 ,也 可 以 设置 是 否 显示 故事 标题 。 故 事 
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仪表 板 窗 格 拖 放 所 需 对 象 至 仪表 板 窗 格 中 ,可 以 添加 仪表 板 对 象 。 

(3) 平 铺 和 浮动 : 决定 了 工作 表 和 对 象 被 拖 放 到 仪表 板 后 的 效果 和 布局 方式 。 默 认 
情况 下 ,仪表 板 使 用 平 铺 布 局 ,这 意味 着 每 个 工作 表 和 对 象 都 排列 在 一 个 分 层 网 格 中 。 可 
以 将 布局 改 为 “浮动 ”以 允许 视图 和 对 象 重 释 。 

(4) 布局 窗 格 : 以 树 形 结构 显示 当前 仪表 板 中 用 到 的 所 有 工作 表 集 对 象 的 布局 
让 式 3 

(5) 仪表 板 设 置 窗 格 : 设置 创建 的 仪表 板 的 大 小 ,也 可 以 设置 是 否 显 示 仪 表 板 标题 。 
仪表 板 的 大 小 可 以 从 预定 义 的 大 小 中 选择 一 个 ,或 以 像素 为 单位 设置 自 定义 大 小 。 

(6) 仪表 板 视 图 区 : 是 创建 和 调整 仪表 板 的 工作 区 域 , 可 以 添加 工作 及 各 类 对 象 。 


A.1.3 故事 工作 区 


故事 是 Tableau 8. 2 之 后 新 增加 的 图 形 ,一 般 将 故事 用 在 演示 工具 , 按 顺序 排列 视图 
或 仪表 板 。 在 工作 区 页 面 单 击 新 建 故 事 图 标 胃 ,或 者 选择 “故事 ”菜单 下 的 “新 建 故事 ”， 
即 可 打开 故事 工作 区 ,如 图 A-6 所 示 。 

故事 工作 区 包含 的 主要 部 件 如 下 ( 按 从 左 到 右 , 从 上 到 下 的 顺序 介绍 )。 

(1) 仪表 板 和 工作 表 窗 格 : 列 出 在 当期 工作 短 中 创建 的 工作 表 和 仪表 板 , 将 其 中 一 
个 工作 表 或 仪表 板 拖 放 到 故事 区 域 , 即 可 创建 故事 点 。 

(2) 说 明 : 说 明 是 可 以 添加 到 故事 点 中 的 一 种 特殊 类 型 的 注释 。 若 要 连接 说 明 , 只 
需 双 击 此 处 。 可 以 向 一 个 故事 点 添加 多 个 说 明 , 可 以 将 说 明 放 置 到 故事 中 的 任何 合适 的 
位 置 。 

(3) 导航 器 设置 : 设置 是 否 显示 导航 框 中 的 后 退 /前 进 按钮 。 
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图 A-6 故事 工作 区 


的 大 小 可 以 从 预定 义 的 大 小 中 选择 一 个 ,也 可 以 以 像素 为 单位 设置 自 定义 大 小 。 

(5) 导航 框 : 用 户 进 行 故事 点 导航 的 窗 格 ,可 以 利用 左 侧 或 右 侧 的 按钮 顺序 切换 故 
事 点 ,也 可 以 直接 单 击 故事 点 进行 切换 。 

(6) 新 空白 点 按钮 : 单 击 此 按钮 可 以 创建 新 故事 点 ,使 其 与 原来 的 故事 点 有 所 不 同 。 

(7) 复制 按钮 : 可 以 将 当前 故事 点 用 作 新 故事 点 的 起 点 。 

(8) 说 明 框 : 通过 说 明 为 故事 点 或 者 故事 点 中 的 工作 表 或 仪表 板 添 加 注释 的 文 
本 框 。 

(9) 故事 视图 区 : 创建 故事 的 工作 区 域 ,可 以 添加 工作 表 、 仪 表 板 或 说 明 框 对 象 。 


A.2 Tableau 的 文件 管理 


Tableau 文件 有 多 种 类 型 ,如 工作 德 、 打 包工 作 德 、 数 据 提取 数据 源 和 书签 等 ,用 于 
保存 工作 成 果 和 数据 源 。 表 A-1 列 出 了 Tableau 的 文件 类 型 。 
。 工作 短文 件 (.twb): 占用 空间 小 ,默认 的 保存 方式 ,包含 所 有 工作 表 及 连接 信息 ， 
但 不 包含 数据 。 
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打包 工作 短文 件 (. twbx) : 占用 空间 可 能 非常 大 ,是 一 个 zip 文件 ,包含 所 有 工作 
表 .连接 信息 以 及 全 部 本 地 资源 (如 本 地 数据 源 . 背 景 图 片 、 自 定义 地 理 编 码 等 ) 。 
这 种 格式 最 适合 对 工作 进行 打包 以 便 与 不 能 访问 该 数据 的 其 他 人 共享 。 
数据 源 文件 (. tds) : 占用 空间 极 小 。 数 据 源 文件 是 快速 连接 经 常 使 用 的 数据 源 的 
快捷 方式 。 数 据 源 文件 不 包含 实际 数据 ,只 包含 新 建 数据 源 所 必需 的 信息 以 及 在 
数据 窗口 中 所 做 的 修改 ,如 默认 属性 .计算 字段 .组 、 集 等 。 

数据 源 文件 (. tdsx): 占用 空间 小 。 如 果 连 接 的 数据 源 不 是 本 地 数据 源 , 则 . tdsx 
文件 的 内 容 与 . tds 文件 相同 ;如 果 连 接 的 数据 源 是 本 地 数据 源 , 则 . tdsx 文件 不 但 
包含 . tds 文件 中 的 所 有 信息 ,还 包含 本 地 文件 数据 源 (Excel、Access、 文 本 和 数据 
提取 )。 

书签 文件 (. tbm): 通常 占用 空间 比较 小 。 书 签 包含 单个 工作 表 , 是 快速 分 享 所 做 
工作 的 一 种 简便 方式 。 

数据 提取 文件 (. tde): 占用 空间 可 能 非常 大 。 数 据 提取 文件 是 部 分 或 整个 数据 源 
的 一 个 本 地 副本 ,可 用 于 共享 数据 、 脱 机 工作 和 提高 数据 库 性 能 。 
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RapidMiner 是 数据 挖掘 、 机 器 学 习 和 商业 预测 分 析 领 域 的 一 款 备 受用 户 青 睐 的 软 
件 ,用 户 可 以 从 www. rapidminer. com 免费 下 载 使 用 。RapidMiner 与 其 他 数据 分 析 软 件 
相 比 ,具有 用 户 人 门 快 ,操作 简单 的 特点 ,用户 使 用 它 不 需要 任何 编程 知识 ,只 需 通 过 鼠标 
拖 放 , 就 能 完成 数据 挖掘 和 分 析 的 功能 。 


B.1 RapidMiner 的 主 界 面 





结果 显示 








图 B-1 RapidMiner 主 界面 


1. 数据 源 区 域 : 数据 源 区 域 列 出 了 RapidMiner 当前 可 以 使 用 的 数据 源 。RapidMiner 
支持 多 种 数据 源 ,包括 Excel、XML、SQIL Server、Oracle、MySQL 和 Hadoop 等 。 如 果 数 据 源 
不 存在 ,可 以 单 击 数据 源 区 域 上 方 的 ”Add Data” 按 钮 来 添加 。 

2. 数据 处 理 模 块 区 域 : 数据 处 理 模块 区 域 包含 各 种 数据 处 理 和 分 析 方 法 ,它们 在 
RapidMiner 中 又 称 为 “ 算 子 ”(operator)。RapidMiner 提供 了 很 多 数据 处 理 和 分 析 方 法 ， 
如 数据 清洗 、 数 据 统计 数据 分 类 、 聚 类 分 析 、 关 联 分 析 和 数据 预测 等 。 

3. 流程 设计 区 域 :“ 流 程 ? 是 RapidMiner 数据 分 析 的 核心 内 容 , 数 据 分 析 的 任务 其 
实 就 是 设计 各 种 流程 。 流 程 可 以 理解 成 RapidMiner 中 数据 分 析 的 过 程 , 数 据 源 以 及 按照 
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先后 顺序 使 用 的 一 系列 数据 分 析 处 理 方法 就 构成 了 一 个 流程 。 图 B-2 所 示 是 一 个 流程 ， 
流程 中 的 数据 源 和 各 种 处 理 方法 都 用 一 个 方块 代表 ,流程 中 各 个 方块 从 左 到 右 的 连 线 代 
表 了 数据 分 析 处 理 的 步骤。 图 B-2 中 的 流程 从 左边 的 数据 源 模 块 开始 ,从 左 至 右 ,经 过 两 
个 数据 分 析 处 理 模 块 (分 别 是 “替换 缺失 的 数据 ?和 "决策 树 ”) 后 ,通过 右边 的 “结果 输出 ” 
端口 给 出 分 析 的 结果 。 流 程 中 每 一 个 方块 的 左边 和 右边 分 别 有 一 些小 的 凸 起 ,代表 该 处 
理 模 块 的 数据 输入 端口 和 数据 输出 端口 ,左边 的 凸 起 是 数据 输入 端口 ,右边 的 凸 起 是 数据 
输出 端口 。 从 最 左边 的 数据 源 模块 开始 ,按照 从 左 至 右 的 顺序 ,依次 把 上 一 个 模块 的 数据 
输出 端口 和 下 一 个 模块 的 数据 输入 端口 相连 接 , 直 至 把 最 后 一 个 模块 的 输出 端口 和 流程 
设计 窗口 的 输出 结果 端口 相连 接 ,就 完成 了 一 次 流程 的 设计 。 
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图 B-2 流程 


4. 结果 显示 区 域 : 数据 分 析 的 结果 在 该 区 域 显 示 。 结 果 显 示 的 形式 也 非常 丰富 , 包 
括 数 据 结果 和 各 种 统计 图 表 等 。 


B.2 使 用 RapidMiner 分 析 数 据 的 方法 


使 用 RapidMiner 分 析 数 据 非 常 简单 ,不 用 编写 代码 ,只 需 像 使 用 积木 一 样 ,把 数据 源 
和 现成 的 数据 分 析 模 块 用 鼠标 拖 放 到 流程 设计 区 域 中 ,前 后 相连 组 成 一 个 流程 就 能 完 
分 析 任 务 。 使 用 RapidMiner 分 析 数 据 的 方法 可 以 简单 概括 成 “加 载 数据 ,设计 流程 ,配置 
参数 ,运行 流程 ”四 个 步骤。 下 面 以 泰坦 尼克 号 乘客 数据 的 决策 树 分 析 为 例 ,来 简要 说 明 
RapidMiner 分 析 数 据 的 方法 

1. 加 载 数据 

当 需 要 分 析 新 的 数据 时 ,可 以 单 击 RapidMiner 主 界面 中 “数据 源 ” 区 域 上 方 的 “Add 
Data” 按 钮 来 添加 新 的 数据 源 。 单 击 “*Add Data” 按 钮 后 ,出 现 数据 选择 对 话 框 ,如 图 B-3 
所 示 。 可 以 根据 数据 所 在 的 位 置 选择 在 本 机 还 是 其 他 数据 库 。 

2. 设计 流程 

当 加 载 数据 完成 后 ,开始 设计 流程 对 数据 进行 分 析 。 如 图 B-4 所 示 ,我 们 首先 用 鼠标 
从 “数据 源 ” 中 选择 “Titanic” 数 据 , 然 后 拖 放 到 流程 设计 区 域 ,再 用 鼠标 从 “数据 分 析 处 理 
模块 ”中 选择 并 拖 放 如 下 三 个 模块 到 流程 设计 区 域 : 蔡 换 缺失 的 数据 值 .设置 标签 和 决策 
树 分 析 。 按 照 数据 处 理 的 步骤 把 这 四 个 模块 从 左 到 右 依次 连接 起 来 ,把 最 后 一 个 “决策 树 
分 析 ” 模 块 的 数据 输出 端口 和 最 右边 的 “结果 输出 ”端口 相连 接 。 
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先后 顺序 使 用 的 一 系列 数据 分 析 处 理 方法 就 构成 了 一 个 流程 。 图 B-2 所 示 是 一 个 流程 ， 
流程 中 的 数据 源 和 各 种 处 理 方法 都 用 一 个 方块 代表 ,流程 中 各 个 方块 从 左 到 右 的 连 线 代 
表 了 数据 分 析 处 理 的 步骤。 图 B-2 中 的 流程 从 左边 的 数据 源 模 块 开始 ,从 左 至 右 ,经 过 两 
个 数据 分 析 处 理 模 块 (分 别 是 “替换 缺失 的 数据 ?和 "决策 树 ”) 后 ,通过 右边 的 “结果 输出 ” 
端口 给 出 分 析 的 结果 。 流 程 中 每 一 个 方块 的 左边 和 右边 分 别 有 一 些小 的 凸 起 ,代表 该 处 
理 模 块 的 数据 输入 端口 和 数据 输出 端口 ,左边 的 凸 起 是 数据 输入 端口 ,右边 的 凸 起 是 数据 
输出 端口 。 从 最 左边 的 数据 源 模块 开始 ,按照 从 左 至 右 的 顺序 ,依次 把 上 一 个 模块 的 数据 
输出 端口 和 下 一 个 模块 的 数据 输入 端口 相连 接 , 直 至 把 最 后 一 个 模块 的 输出 端口 和 流程 
设计 窗口 的 输出 结果 端口 相连 接 ,就 完成 了 一 次 流程 的 设计 。 
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图 B-2 流程 


4. 结果 显示 区 域 : 数据 分 析 的 结果 在 该 区 域 显 示 。 结 果 显 示 的 形式 也 非常 丰富 , 包 
括 数 据 结果 和 各 种 统计 图 表 等 。 


B.2 使 用 RapidMiner 分 析 数 据 的 方法 


使 用 RapidMiner 分 析 数 据 非 常 简单 ,不 用 编写 代码 ,只 需 像 使 用 积木 一 样 ,把 数据 源 
和 现成 的 数据 分 析 模 块 用 鼠标 拖 放 到 流程 设计 区 域 中 ,前 后 相连 组 成 一 个 流程 就 能 完 
分 析 任 务 。 使 用 RapidMiner 分 析 数 据 的 方法 可 以 简单 概括 成 “加 载 数据 ,设计 流程 ,配置 
参数 ,运行 流程 ”四 个 步骤。 下 面 以 泰坦 尼克 号 乘客 数据 的 决策 树 分 析 为 例 ,来 简要 说 明 
RapidMiner 分 析 数 据 的 方法 

1. 加 载 数据 

当 需 要 分 析 新 的 数据 时 ,可 以 单 击 RapidMiner 主 界面 中 “数据 源 ” 区 域 上 方 的 “Add 
Data” 按 钮 来 添加 新 的 数据 源 。 单 击 “*Add Data” 按 钮 后 ,出 现 数据 选择 对 话 框 ,如 图 B-3 
所 示 。 可 以 根据 数据 所 在 的 位 置 选择 在 本 机 还 是 其 他 数据 库 。 

2. 设计 流程 

当 加 载 数据 完成 后 ,开始 设计 流程 对 数据 进行 分 析 。 如 图 B-4 所 示 ,我 们 首先 用 鼠标 
从 “数据 源 ” 中 选择 “Titanic” 数 据 , 然 后 拖 放 到 流程 设计 区 域 ,再 用 鼠标 从 “数据 分 析 处 理 
模块 ”中 选择 并 拖 放 如 下 三 个 模块 到 流程 设计 区 域 : 蔡 换 缺失 的 数据 值 .设置 标签 和 决策 
树 分 析 。 按 照 数据 处 理 的 步骤 把 这 四 个 模块 从 左 到 右 依次 连接 起 来 ,把 最 后 一 个 “决策 树 
分 析 ” 模 块 的 数据 输出 端口 和 最 右边 的 “结果 输出 ”端口 相连 接 。 
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图 B-3 加 载 数据 























图 B-4 流程 设计 


3. 配置 参数 
在 设计 流程 的 过 程 中 ,我 们 还 可 以 对 每 一 个 处 理 模块 设置 不 同 的 参数 。 只 要 选择 该 
模块 ,然后 单 击 “参数 ”(Parameters) 标 签 , 即 可 设置 该 模块 的 相关 参数 。 例 如 ,我们 选择 
“替换 缺失 的 数据 值 ? 模 块 , 再 单 击 “ 参 数 ”(Parameters) 标 签 , 即 可 切换 到 对 该 模块 的 参 
数 设置 界面 ,如 图 B-5 所 示 。 
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图 B-5 参数 配置 


4. 运行 流程 
当 设 计 完 流程 ,配置 好 各 种 模块 的 处 理 参数 后 , 即 可 单 击 菜单 中 的 “运行 流程 ”按钮 启 
动 数据 分 析 。“ 运 行 流 程 ” 按 钮 如 图 B-6 中 黑 框 内 所 示 。 
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图 B-6 运行 流程 的 按 乌 


如 果 流 程 没 有 错误 ,RapidMiner 就 会 按照 从 左 到 右 的 顺序 依次 执行 流程 中 的 各 个 处 
理 模 块 , 最 后 在 结果 框 中 显示 本 流程 对 数据 的 分 析 结 果 , 如 图 B-7 所 示 。 


























图 B-7 流程 对 数据 的 分 析 结 果 


从 上 述 步骤 可 以 看 到 ,用 RapidMiner 分 析 数 据 不 用 编写 代码 ,只 需 像 使 用 积木 一 样 ， 
把 数据 源 和 现成 的 数据 分 析 模 块 前 后 组 成 一 个 流程 就 能 完成 分 析 任 务 。 


“ M9 


